Российский датасет Yambda помог ускорить рекомендательные алгоритмы в 60 раз

Исследователи из Амстердамского университета существенно оптимизировали процесс обучения рекомендательных систем, предложив методы ускорения до десятков раз без ущерба для качества. Ключевую роль в данном исследовании сыграл датасет Yambda, предоставленный компанией «Яндекс». Yambda представляет собой один из самых масштабных открытых наборов данных в мире для рекомендательных систем, содержащий почти 5 миллиардов обезличенных взаимодействий пользователей с музыкальным контентом «Яндекс Музыки». Этот датасет был открыт «Яндексом» в 2025 году, став важным инструментом для тестирования алгоритмов искусственного интеллекта в условиях, приближенных к реальным производственным задачам.

Исследование было сосредоточено на усовершенствовании модели SEATER, которая применяется для формирования рекомендаций товаров, музыкальных произведений и иного контента. В отличие от традиционных алгоритмов, модель SEATER выстраивает иерархический каталог объектов, группируя похожие элементы. Такая структуризация способствует повышению скорости и точности рекомендаций. Однако ранее этап подготовки этого «дерева-каталога» мог занимать до 20% общего времени обучения модели, что создавало затруднения для оперативного обновления рекомендаций в реальных приложениях.

Команда ученых предложила два альтернативных подхода к подготовке данных, обеспечивающих более высокую скорость обработки. Первый метод ориентирован на достижение максимальной скорости и предусматривает распределение объектов по группам без детальной подгонки. Второй подход комбинирует быстрый начальный этап с последующей точной доработкой внутри сформированных небольших кластеров. Эффективность новых методов была проверена на нескольких наборах данных, включая отзывы Yelp и рекомендации Amazon, но наиболее значительные результаты были получены при тестировании на российском датасете Yambda.

Масштаб датасета Yambda позволил в полной мере раскрыть потенциал разработанных алгоритмов. Использование быстрого метода подготовки данных сократило время обработки с 82 минут до 83 секунд, что эквивалентно ускорению почти в 60 раз, при этом качество рекомендаций осталось практически неизменным. Комбинированный подход продемонстрировал ускорение приблизительно в 15 раз и даже позволил незначительно повысить точность по сравнению с изначальной версией модели. Помимо этого, эксперимент подтвердил, что оба усовершенствованных метода превосходят популярные рекомендательные системы, такие как SASRec, BERT4Rec и GRU4Rec, по точности на 13–17%.

Авторы исследования отмечают, что работа с Yambda подтвердила практическую применимость генеративных рекомендательных систем для обработки чрезвычайно больших каталогов. Этот аспект особенно актуален для сервисов потоковой передачи музыки, крупных интернет-магазинов и новостных платформ, где критически важно оперативно обновлять рекомендации для миллионов пользователей. Данное исследование также подчеркивает ценность концепции открытых данных: предоставив Yambda, «Яндекс» снабдил научно-техническое сообщество уникальным инструментом, способствующим глобальному прогрессу в области рекомендательных технологий. Весь разработанный код улучшенной модели SEATER стал доступен в открытом доступе и готов к интеграции в реальные продукты.