Яндекс открывает доступ к беспрецедентному датасету Yambda-5B

Исследовательское подразделение Яндекса выложило в открытый доступ масштабный датасет Yambda-5B, содержащий 4,79 млрд анонимизированных пользовательских взаимодействий. Он представляет собой один из наиболее объемных наборов данных для рекомендательных систем в мировой практике и охватывает десятимесячный период функционирования сервиса Яндекс Музыка.

Александр Плошкин, руководитель группы развития качества персонализации в Яндексе, так это прокомментировал: «Чтобы способствовать развитию новых алгоритмов в рекомендательных системах, мы открываем Yambda — YAndex Music Billion‑interactions DAtaset. Это крупнейший на сегодня открытый датасет пользовательских взаимодействий в рекомендательном домене».

Информационная структура Yambda-5B включает комплексный набор пользовательских реакций, интегрируя как эксплицитную обратную связь в виде лайков, дизлайков, анлайков и андизлайков, так и имплицитные показатели вовлеченности через регистрацию прослушиваний.

Техническая организация данных предусматривает сохранение временных меток для всех типов взаимодействий и интеграцию флага is_organic, дифференцирующего органические действия пользователей от взаимодействий, инициированных рекомендательной системой.

Для обеспечения гибкости в исследовательском применении Yambda доступен в трех конфигурациях:

  • полномасштабная версия, содержащая 5 миллиардов событий;
  • редуцированные варианты на 500 миллионов;
  • 50 миллионов событий, оптимизированные для экспериментального использования.

Методология оценки эффективности алгоритмов на основе представленного датасета реализована посредством Global Temporal Split — подхода, предусматривающего обучение на исторических данных с последующим тестированием на событиях следующего хронологического дня.

Автор: Ирина Задорожная
Журналист с опытом работы в оффлайн-медиа и онлайн-изданиях. Пишу про искусственный интеллект, ИТ-системы и сервисы, про ИТ-бизнес уже 10 лет.