HuggingFace выпустил FineWeb 2 на 1000+ языков

Примечательно, что русский язык занял первое место по объему данных. Масштаб проекта впечатляет: 8 терабайт сжатых данных, включающих около 3 триллионов слов и 1893 уникальные комбинации языков и систем письма.

HuggingFace выпустил беспрецедентный языковой корпус FineWeb 2, охватывающий более 1000 языков мира, но распределение контента между языками неравномерно. 80 наиболее распространенных языков представлены массивами данных объемом более 1 гигабайта каждый, тогда как для 486 менее распространенных языков объем данных не превышает 1 мегабайта.

Проект отличается прозрачностью и открытостью: весь процесс сбора и обработки данных доступен в открытом репозитории GitHub под лицензией Apache 2.0. Эффективность корпуса подтверждена тестированием на более чем 90 задачах FineTasks, где модели продемонстрировали устойчивый рост показателей производительности.

Корпус распространяется под лицензией ODC-By 1.0, что позволяет его использование как в коммерческих, так и в некоммерческих целях при условии указания источника. Важно отметить, что английский язык намеренно исключен из корпуса, так как FineWeb 2 задуман как дополнительный ресурс для обучения моделей.

Этот релиз представляет собой значительный шаг вперед в развитии многоязычного машинного обучения, предоставляя исследователям и разработчикам беспрецедентный объем структурированных данных для создания более совершенных языковых моделей.