Разработка для расширения контекста получила премию на Data Fusion Awards

На конференции Data Fusion состоялась церемония награждения Data Fusion Awards, где премию за научный прорыв получил Айдар Булатов. Он стал одним из авторов методики, в которой предложен инновационный способ расширения контекстного окна трансформеров при линейном росте вычислительных затрат.

Ключевая идея разработки элегантна: соединение традиционных трансформеров с рекуррентным механизмом памяти. Принцип работы метода заключается в последовательной обработке текста, разделенного на сегменты. При этом в начало каждого сегмента добавляются векторы памяти, которые обновляются на каждой следующей итерации.

Таким образом, механизм self-attention вычисляется только внутри каждого сегмента, но при этом система постепенно накапливает всё больше информации о всем тексте.

Модель обучалась исключительно на последовательностях длиной до 3.5 тысяч токенов, но при тестировании она уверенно справляется с контекстом до 2 миллионов токенов! Более того, с некоторыми модификациями система способна обрабатывать контексты до 50 миллионов токенов, что открывает беспрецедентные возможности для развития ИИ-систем.

Результаты исследования доступны на GitHub, где представлен полный код проекта.

Примечательно, что на основе этой работы Айдар Булатов в команде с Юрием Куратовым и другими исследователями также создал бенчмарк BABILong для оценки моделей на длинном контексте. Сейчас этот бенчмарк активно используют для тестирования своих моделей ведущие лаборатории мира, включая Google, Meta и OpenAI, что свидетельствует о глобальном признании и значимости российской разработки.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.