Nvidia представила корпус речевых данных на 26 языках

Компания Nvidia объявила о выпуске масштабного открытого датасета Granary для обучения ИИ-систем задачам распознавания и перевода речи на европейских языках. Данная инициатива представляет собой комплексный технологический ответ на существующий дефицит качественных речевых корпусов для языков европейского региона, особенно для редких лингвистических групп.

Количественные характеристики датасета впечатляют: совокупный объем составляет приблизительно миллион часов аудиоматериалов, структурированных по функциональному назначению — 650 тысяч часов оптимизированы для тренировки систем распознавания речи, а 350 тысяч часов предназначены для обучения моделей перевода.

Лингвистический охват Granary включает все 24 официальных языка Европейского союза с дополнением русского и украинского языков, что позволяет говорить о полноценном покрытии европейского лингвистического ландшафта.

Принципиальным технологическим достижением является включение в корпус таких редких языков, как хорватский, эстонский и мальтийский, для которых до настоящего момента не существовало репрезентативных датасетов промышленного масштаба.

Для реализации столь масштабного проекта Nvidia консолидировала усилия с исследовательскими командами из Университета Карнеги-Меллона и Фонда Бруно Кесслера.

Технологическим фундаментом процесса обработки аудиоданных выступил инструментарий NeMo Speech Data Processor, обеспечивающий трансформацию неструктурированных публичных аудиозаписей в формат, оптимизированный для машинного обучения.

Данная методология существенно снижает трудозатраты на ручную разметку, одновременно оптимизируя временные и финансовые ресурсы при тренировке моделей.