Российский фреймворк сокращает затраты на обучение ИИ втрое

Российские разработчики представили фреймворк ATGen, кардинально сокращающий расходы на разметку данных для обучения языковых моделей. Технология, продемонстрированная на престижной международной конференции ACL 2025 в Вене, снижает необходимый объем разметки до 33% от стандартного, что втрое уменьшает затраты.

Разработка фреймворка осуществлена консорциумом ведущих российских технологических и научных организаций, включающим Т-Технологии, Высшую Школу Экономики, Аналитический центр искусственного интеллекта (AIRI), Сбер и Университет «Иннополис».

Интересуетесь ИИ? Международный клуб ShareAI Александра Горного - объединяет тех, кто хочет внедрить в свой бизнес или работу ИИ или погрузиться в эту тему. Онлайн и оффлайн.
Узнать подробнее про клуб ShareAI

Фундаментальной инновацией ATGen стало применение методологии активного обучения (active learning), которая позволяет языковой модели автономно определять приоритетность обучающих данных.

В основе фреймворка лежит принцип интеллектуальной селективности: система самостоятельно анализирует и выбирает наиболее информативные примеры для обучения, игнорируя избыточные и малоинформативные данные.

Это позволяет достичь сопоставимого качества модели при использовании лишь трети обычного объема размеченных данных.

Техническая реализация ATGen включает удобный программный интерфейс с поддержкой протоколов OpenAI, что обеспечивает его совместимость с существующими инструментами разработки и упрощает интеграцию в действующие системы машинного обучения.

Данное технологическое решение существенно снижает барьер входа в сферу разработки языковых моделей для организаций с ограниченными ресурсами.

Автор: Александр Чернов
Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.