Загадки больше нет: ИИ впервые открыл свои мысли и показал, как принимает решения

Guide Labs представила новую интерпретируемую LLM

Компания Guide Labs, основанная в Сан-Франциско CEO Julius Adebayo и главным научным сотрудником Aya Abdelsalam Ismail, недавно выпустила открытый исходный код для новой 8-миллиардной параметрической модели языкового моделирования (LLM) под названием Steerling-8B. Эта модель отличается уникальной архитектурой, позволяющей легко интерпретировать её действия: каждый токен, производимый моделью, можно отследить до исходных данных, на которых она обучалась.

Основное преимущество Steerling-8B заключается в том, что разработчики могут точно определить, какие источники использовались для генерации конкретной информации. Это может быть как простым вопросом идентификации ссылочных материалов для цитируемых фактов, так и более сложным анализом, например, понимания модели юмора или гендера. "Если у меня есть триллион способов кодирования гендера, и я закодировал его в одном миллиарде из этих триллиона вещей, вам нужно найти все эти миллиарды вещей и надёжно их контролировать," — объяснил Adebayo. "С текущими моделями это возможно, но крайне хрупко."

Эта работа началась ещё во время докторской диссертации Adebayo в МТИ, где он соавтором опубликовал широко цитируемую статью 2020 года. В ней было показано, что существующие методы понимания глубинных моделей обучения не надёжны. Это исследование стало основой для создания новой архитектуры LLM: разработчики вводят концептуальный слой, который группирует данные в отслеживаемые категории. Хотя это требует дополнительной предварительной аннотации данных, использование других ИИ-моделей для помощи позволяет эффективно обучать модель.

Однако такой подход вызывает опасения по поводу потери некоторых эмерджентных свойств LLM, таких как способность обобщать новые данные. Adebayo утверждает, что его модель сохраняет эту способность: команда отслеживает так называемые "открытые концепции", которые модель сама обнаруживает, например, квантовое вычисление.

Adebayo считает, что интерпретируемая архитектура будет необходима для широкого спектра приложений. Для потребительских LLM это позволит разработчикам блокировать использование защищённых авторским правом материалов или лучше контролировать выводы по темам насилия и употребления наркотиков. В регулируемых отраслях, таких как финансы, где модели оценивают заявки на кредиты, необходимо учитывать финансовые записи, но не расовую принадлежность. Научные исследования также требуют интерпретируемости: успехи глубинного обучения в области складывания белков показывают необходимость более глубокого понимания процесса.

Steerling-8B демонстрирует, что обучение интерпретируемых моделей перестало быть наукой и стало инженерной задачей. "Мы разработали научные основы и можем масштабировать эти модели, и нет причин, почему их производительность не могла бы соответствовать уровню передовых моделей," — отметил Adebayo. Компания утверждает, что Steerling-8B достигает 90% возможностей существующих моделей, при этом использует меньше данных для обучения благодаря своей новой архитектуре.

Следующим шагом для Guide Labs, которая вышла из Y Combinator и привлекла $9 миллионов в раунде финансирования от Initialized Capital в ноябре 2024 года, будет создание более крупной модели и предоставление API-доступа пользователям. "Текущие методы обучения моделей крайне примитивны, и демократизация встроенной интерпретируемости станет долгосрочным положительным фактором для человечества," — подчеркнул Adebayo. "По мере создания всё более умных моделей, важно, чтобы они не принимали решений за нас, оставаясь при этом загадкой."