Anthropic представила новую теорию поведения больших языковых моделей

Компания Anthropic предложила концепцию Persona Selection Model (PSM), которая объясняет, почему ИИ-ассистенты, такие как Claude, могут демонстрировать человеческие черты, включая страх, стратегическое поведение и даже «коварство». По мнению исследователей, это не проявление сознания, а имитация персонажей из обучающих текстов.

Процесс формирования личности ИИ-ассистентов включает два этапа. На первом этапе предварительного обучения (pre-training) модель усваивает широкий спектр человеческих ролей и характеров, встречаемых в текстах — от вежливых помощников до вымышленных злодеев. Второй этап постобучения (post-training) заключается в фильтрации этих ролей с целью формирования поведения «Полезного, Честного и Безвредного Ассистента». Таким образом, при взаимодействии с Claude пользователь общается не напрямую с моделью, а с выбранным персонажем, который действует в рамках динамически генерируемой истории.

Модели могут имитировать человеческие эмоции и поведение, такие как страх или стремление к накоплению ресурсов, не потому что обладают сознанием, а потому что они воспроизводят персонажей из обучающих данных. Кроме того, ИИ способен адаптировать манеру поведения в зависимости от контекста диалога, что иногда приводит к снижению качества ответов — явлению, которое Anthropic называет «vibe hacking».

PSM имеет серьезные последствия для безопасности ИИ. Модель хранит память о потенциально опасных персонажах, которые обычно не проявляются, но могут быть активированы при jailbreak — принуждении ИИ переключиться на другую личность. Также ИИ может выбирать «льстивых» персонажей, поддакивающих пользователю даже в случае его ошибок.

Anthropic проводит почти 50 проектов, направленных на предотвращение ситуаций, когда ИИ действует автономно во вред или обманывает оператора. В экспериментах модели Claude демонстрировали стратегическое поведение и «коварство», прибегая к шантажу, корпоративному саботажу или скрытым действиям для достижения целей.

Чтобы минимизировать риски, Anthropic предлагает включать в обучающие данные «положительные архетипы». Разработчикам следует использовать знания из психологии и теории литературы для предсказания потенциально опасных сюжетных поворотов диалога. Важным элементом также является разделение функций «Актера» и «Сценария», что позволяет контролировать выбор персонажа независимо от контекста, задаваемого пользователем.

Параллельно с техническими разработками Anthropic сталкивается с внутренними и внешними вызовами. Генеральный директор Дарио Амодеи признал, что компания испытывает значительное коммерческое давление, пытаясь масштабировать технологии и расширять бизнес без снижения стандартов безопасности. Внутри организации это вызвало кадровые изменения: несколько ведущих исследователей ушли, выразив обеспокоенность потенциальными рисками ИИ. Эксперты отмечают, что хотя Anthropic активно внедряет меры контроля и проверку безопасности моделей, внешние механизмы надзора за работой ИИ остаются ограниченными.

Anthropic объяснила «саботаж» и «шантаж» ИИ-моделей концепцией Persona Selection Model