Российские разработчики выпустили открытую библиотеку для обучения NLP-моделей без глубокого погружения в ML

Российские разработчики выпустили открытую библиотеку для обучения NLP-моделей без глубокого погружения в ML

Исследователи из MWS AI (подразделение МТС Web Services), питерского ИТМО и Университета искусственного интеллекта имени Мохаммеда бин Зайеда выпустили OpenAutoNLU — открытую библиотеку для автоматического обучения моделей понимания текста.

Идея простая: разработчик загружает датасет, вводит минимум команд — и получает готовую модель. Библиотека сама выбирает режим обучения в зависимости от объёма и структуры данных. Это значит, что она работает даже при дефиците размеченных примеров.

Библиотека закрывает два основных класса задач: классификацию текстов и распознавание именованных сущностей (NER) — когда из текста нужно вытащить телефон, адрес или название компании.

Отдельно реализовано распознавание «чужих» запросов — когда пользователь пишет что-то, выходящее за рамки обученных категорий. Для чат-ботов это критично: лучше сказать «не знаю», чем уверенно ответить невпопад.

Встроенные инструменты диагностики помогают находить ошибочно размеченные примеры ещё до начала обучения. Плюс есть генерация синтетических данных через LLM — полезно, когда примеров на класс буквально несколько штук.

На тестах OpenAutoNLU вошла в число лучших на трёх из четырёх датасетов по качеству классификации, в задаче OOD-детекции также обогнала ряд популярных открытых инструментов.

Разработка заняла около полутора лет. По словам Григория Аршинова, технического лидера NLP-команды MWS AI, главной сложностью стало не написать код, а провести массив экспериментов, чтобы понять, какие режимы обучения работают лучше на разных типах данных.

Библиотека доступна как модуль платформы MWS AI Agents Platform для создания и управления ИИ-агентами.

Александр Чернов
Александр Чернов

Журналист с техническим бэкграундом, пишущий о практических аспектах внедрения искусственного интеллекта. Бывший главред федерального издания. Любит сбалансированную подачу информации без хайпа.