Исследователи из MWS AI (подразделение МТС Web Services), питерского ИТМО и Университета искусственного интеллекта имени Мохаммеда бин Зайеда выпустили OpenAutoNLU — открытую библиотеку для автоматического обучения моделей понимания текста.
Идея простая: разработчик загружает датасет, вводит минимум команд — и получает готовую модель. Библиотека сама выбирает режим обучения в зависимости от объёма и структуры данных. Это значит, что она работает даже при дефиците размеченных примеров.
Библиотека закрывает два основных класса задач: классификацию текстов и распознавание именованных сущностей (NER) — когда из текста нужно вытащить телефон, адрес или название компании.
Отдельно реализовано распознавание «чужих» запросов — когда пользователь пишет что-то, выходящее за рамки обученных категорий. Для чат-ботов это критично: лучше сказать «не знаю», чем уверенно ответить невпопад.
Встроенные инструменты диагностики помогают находить ошибочно размеченные примеры ещё до начала обучения. Плюс есть генерация синтетических данных через LLM — полезно, когда примеров на класс буквально несколько штук.
На тестах OpenAutoNLU вошла в число лучших на трёх из четырёх датасетов по качеству классификации, в задаче OOD-детекции также обогнала ряд популярных открытых инструментов.
Разработка заняла около полутора лет. По словам Григория Аршинова, технического лидера NLP-команды MWS AI, главной сложностью стало не написать код, а провести массив экспериментов, чтобы понять, какие режимы обучения работают лучше на разных типах данных.
Библиотека доступна как модуль платформы MWS AI Agents Platform для создания и управления ИИ-агентами.