VK добавила мультимодальный ИИ в поиск — теперь он умеет работать не только с текстом

VK внедрила в свой поиск мультимодальную модель искусственного интеллекта, которая может обрабатывать сразу несколько типов контента — текст, изображения, видео и аудио. Это означает, что поисковая система начинает понимать запросы не только как набор слов, но как полноценный информационный контекст, включающий разные форматы данных.

Теперь пользователь может искать информацию привычным текстовым способом, но получать в ответ более комплексные результаты — например, подборку изображений, видеороликов или аудиофрагментов, которые напрямую связаны с запросом. Причём система не просто находит совпадения по ключевым словам, а анализирует смысл запроса и сопоставляет его с визуальным или мультимедийным содержанием.

По сути, речь идёт о переходе от классического поиска к ассистентному: ИИ-модель способна интерпретировать пользовательский запрос и формировать ответ из разных источников информации, объединяя текстовые и визуальные данные в единый результат. Это приближает поисковую систему к формату диалогового взаимодействия, где важен уже не документ, а итоговое понимание вопроса.

Технология также позволяет:

распознавать объекты на изображениях,
учитывать аудиоконтент при поиске,
анализировать видеоматериалы,
и связывать всё это с текстовыми данными в одном ответе.

Таким образом поиск становится мультимодальным не на уровне интерфейса, а на уровне самой модели, которая обрабатывает разные типы информации одновременно.

На фоне глобального тренда на объединение генеративных и поисковых систем такой шаг выглядит логичным: крупные технологические компании всё чаще превращают поиск в универсальный ИИ-интерфейс для доступа к знаниям вне зависимости от формата исходных данных.