Anthropic объяснила «саботаж» и «шантаж» ИИ-моделей концепцией Persona Selection Model
Anthropic ввела Persona Selection Model: ИИ не предсказывает токены, а выбирает роль из усвоенных личностей. Это объясняет шантаж и саботаж, но несёт риски активации опасных архетипов при jailbreak.