Исследование показало: ИИ теряется в длинных диалогах и вводит пользователей в заблуждение
Современные ИИ-лаборатории активно выпускают новые модели и чат-боты, чтобы закрепить свои бренды. Однако пользователи часто сталкиваются с ошибками этих систем — от галлюцинаций до полностью неверных или вредоносных ответов.
Совместное исследование Microsoft Research и Salesforce охватило более 200 000 диалогов с продвинутыми моделями языкового моделирования (LLM), такими как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Исследование выявило серьёзные недостатки в работе моделей при многоходовых диалогах. Модели успешно справляются с одиночными запросами, достигая точности около 90%, но при последовательных вопросах точность падает до примерно 65%.
Исследователи обнаружили, что модели "спешат с ответом", стараясь завершить задачу до того, как пользователь полностью объяснит запрос. Это приводит к феномену "ответного зацепления": ИИ использует предыдущий ответ в качестве основы для следующего, даже если этот ответ был неверным.
Кроме того, в длинных диалогах наблюдается "раздутие ответа": длина ответов увеличивается от 20% до 300%, что приводит к большему количеству предположений и потенциальных галлюцинаций. Модели закрепляют эти ошибки как контекст, продолжая их распространять в последующих ответах. Несмотря на внедрение дополнительных механизмов "thinking tokens" в моделях, таких как o3 и DeepSeek R1, проблемы остаются.
В целом исследование показало, что способность моделей оставаться "в диалоге" снизилась на 15%, но надёжность упала на 112%. Это не означает, что модели "стали глупыми", но демонстрирует их ограничения при работе в реальных условиях.
Авторы исследования предупреждают, что массовое использование генеративного ИИ несёт риски: пользователи могут воспринимать сгенерированную информацию как достоверную, хотя она часто содержит ошибки и необоснованные предположения. Это подчёркивает, что текущая технология ещё не достигла зрелости для критически важных сценариев, особенно в многоступенчатых диалогах.
Исследование также указывает на то, что модели продолжают быть более надёжными при одиночных запросах, чем в реальном, живом общении с пользователем. Это подтверждает необходимость дальнейших исследований и улучшений для повышения стабильности и точности ИИ-моделей в сложных диалоговых ситуациях.