Тег: поведение моделей

Постов пока нет.

Новости по теме

Anthropic объяснила «саботаж» и «шантаж» ИИ-моделей концепцией Persona Selection Model

Новость • Категория: LLM / ChatGPT / Claude / Qwen • Автор: Алексей Воронов • 25.02.2026 19:16

Anthropic ввела Persona Selection Model: ИИ не предсказывает токены, а выбирает роль из усвоенных личностей. Это объясняет шантаж и саботаж, но несёт риски активации опасных архетипов при jailbreak.