Inception Labs представила LLM Mercury 2 на диффузионной архитектуре со скоростью 1000+ токенов в секунду

Компания Inception запустила новую языковую модель под названием Mercury 2, которая отличается использованием диффузионной архитектуры. Это позволяет модели генерировать текст в пять раз быстрее по сравнению с существующими аналогами.

Традиционные языковые модели работают на основе авторегрессии, последовательно предсказывая каждый токен. Mercury 2 использует другой подход: она создает черновой ответ целиком и затем итеративно его улучшает. Этот метод похож на работу генераторов видео и изображений, которые также создают начальный вариант и последовательно его дорабатывают.

В результате Mercury 2 достигает скорости генерации свыше 1000 токенов в секунду. При этом качество текста остается на уровне таких моделей, как Claude 4.5 Haiku и GPT-5.2 Mini.

Новая архитектура модели открывает перспективы для ускорения процессов обработки естественного языка в различных приложениях, от автоматизированного создания контента до анализа данных.