Российские разработчики представили фреймворк ATGen, кардинально сокращающий расходы на разметку данных для обучения языковых моделей. Технология, продемонстрированная на престижной международной конференции ACL 2025 в Вене, снижает необходимый объем разметки до 33% от стандартного, что втрое уменьшает затраты.
Разработка фреймворка осуществлена консорциумом ведущих российских технологических и научных организаций, включающим Т-Технологии, Высшую Школу Экономики, Аналитический центр искусственного интеллекта (AIRI), Сбер и Университет «Иннополис».
Узнать подробнее про клуб ShareAI
Фундаментальной инновацией ATGen стало применение методологии активного обучения (active learning), которая позволяет языковой модели автономно определять приоритетность обучающих данных.
В основе фреймворка лежит принцип интеллектуальной селективности: система самостоятельно анализирует и выбирает наиболее информативные примеры для обучения, игнорируя избыточные и малоинформативные данные.
Это позволяет достичь сопоставимого качества модели при использовании лишь трети обычного объема размеченных данных.
Техническая реализация ATGen включает удобный программный интерфейс с поддержкой протоколов OpenAI, что обеспечивает его совместимость с существующими инструментами разработки и упрощает интеграцию в действующие системы машинного обучения.
Данное технологическое решение существенно снижает барьер входа в сферу разработки языковых моделей для организаций с ограниченными ресурсами.