Индийский институт науки (IISc) и ARTPARK объявили о стратегическом партнерстве с HuggingFace. Направленном на расширение доступа разработчиков со всего мира к Vaani – крупнейшему открытому мультимодальному и многоязычному датасету Индии. Сотрудничество нацелено на создание инклюзивных и передовых ИИ-технологий, учитывающих лингвистическое и культурное разнообразие страны.
Масштаб проекта впечатляет: планируется собрать более 150 000 часов речи и 15 000 часов транскрибированного текста от 1 миллиона человек из всех 773 районов Индии. Первая фаза проекта, охватившая 80 районов, уже завершена и данные находятся в открытом доступе. В настоящее время идет вторая фаза, расширяющая охват еще на 100 районов.
Проект Vaani, запущенный в 2022 году совместными усилиями IISc/ARTPARK и Google, стал первой инициативой по созданию открытого мультимодального датасета, отражающего всё языковое разнообразие Индии. Уникальность проекта заключается в его геоцентричном подходе: особое внимание уделяется сбору диалектов и языков из отдаленных регионов, а не только основным языкам страны.
По состоянию на 15 февраля 2025 года, открытая часть датасета включает 790 часов транскрибированного аудио от примерно 700 000 спикеров, охватывающего 70 000 изображений. Этот специализированный набор данных, включающий сегментированные аудиофрагменты с точными транскрипциями, предназначен для решения различных задач, включая распознавание речи, языковое моделирование и сегментацию речи.
Партнерство между HuggingFace и IISc/ARTPARK призвано не только повысить доступность датасета Vaani, но и улучшить его практическую применимость. Это должно стимулировать разработку ИИ-систем, лучше понимающих разнообразие индийских языков и отвечающих цифровым потребностям населения страны. Подробная информация о распределении языков по районам доступна на платформе HuggingFace.