Исследовательское подразделение Яндекса выложило в открытый доступ масштабный датасет Yambda-5B, содержащий 4,79 млрд анонимизированных пользовательских взаимодействий. Он представляет собой один из наиболее объемных наборов данных для рекомендательных систем в мировой практике и охватывает десятимесячный период функционирования сервиса Яндекс Музыка.
Александр Плошкин, руководитель группы развития качества персонализации в Яндексе, так это прокомментировал: «Чтобы способствовать развитию новых алгоритмов в рекомендательных системах, мы открываем Yambda — YAndex Music Billion‑interactions DAtaset. Это крупнейший на сегодня открытый датасет пользовательских взаимодействий в рекомендательном домене».
Информационная структура Yambda-5B включает комплексный набор пользовательских реакций, интегрируя как эксплицитную обратную связь в виде лайков, дизлайков, анлайков и андизлайков, так и имплицитные показатели вовлеченности через регистрацию прослушиваний.
Техническая организация данных предусматривает сохранение временных меток для всех типов взаимодействий и интеграцию флага is_organic, дифференцирующего органические действия пользователей от взаимодействий, инициированных рекомендательной системой.
Для обеспечения гибкости в исследовательском применении Yambda доступен в трех конфигурациях:
- полномасштабная версия, содержащая 5 миллиардов событий;
- редуцированные варианты на 500 миллионов;
- 50 миллионов событий, оптимизированные для экспериментального использования.
Методология оценки эффективности алгоритмов на основе представленного датасета реализована посредством Global Temporal Split — подхода, предусматривающего обучение на исторических данных с последующим тестированием на событиях следующего хронологического дня.