MIT и Nvidia разработали TLT: ускорение обучения ИИ вдвое без простоев GPU

Обучение больших языковых моделей требует значительных ресурсов и времени. Важно не только количество графических процессоров (GPU), но и их эффективное использование. По мере увеличения размера моделей, даже небольшие потери времени и энергии могут привести к огромным затратам.

Исследователи из Массачусетского технологического института (MIT) в сотрудничестве с NVidia предложили метод, который позволяет эффективно использовать вычислительные ресурсы и сокращать время обучения. В некоторых случаях это ускоряет процесс почти вдвое.

Основная проблема заключается в обучении с подкреплением (RL), особенно на фазе развертывания. На этом этапе модель генерирует несколько вариантов ответов, чтобы научиться определять наиболее эффективные действия. Этот процесс занимает до 85% от общего времени выполнения из-за «распределения с длинным хвостом» длительности ответов. Большинство ответов завершаются быстро, но некоторые требуют гораздо больше времени, что приводит к простаиванию GPU.

Решение, разработанное командой из MIT и названное Taming the Long Tail (TLT), решает проблему неэффективного использования ресурсов. Вместо того чтобы оставлять GPU простаивать, TLT использует это время для обучения облегченной «черновой» модели в режиме реального времени. Эта меньшая модель непрерывно учится на основе основной модели по мере ее продвижения.

Метод основан на спекулятивном декодировании, при котором меньшая модель предсказывает токены раньше основной. Это позволяет проверять несколько токенов параллельно. Традиционное спекулятивное декодирование использует фиксированную черновую модель, которая быстро устаревает. TLT меняет эту динамику, обеспечивая постоянное обновление меньшей модели.

Эксперименты с использованием моделей обучения с логической ориентацией и реальных наборов данных показали значительные результаты. Исследователи сообщают об ускорении обучения от 70% до 210% по сравнению с базовыми моделями, фактически удваивая скорость обучения во многих сценариях. При этом точность модели не изменяется.