"Яндекс" выложил в опенсорс датасет для развития рекомендательных систем

"Яндекс" выложил в опенсорс Yambda (YAndex Music Billion-interactions DAtaset) — один из крупнейших в мире датасетов для развития рекомендательных систем. С помощью Yambda учёные, исследователи и вузы со всего мира смогут тестировать и улучшать рекомендательные алгоритмы.

Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. Данные датасета и код для замеров доступны на HuggingFace.

Yambda создан на основе обезличенных данных "Яндекс Музыки" — крупнейшего подписного музыкального сервиса в России. Но использовать его можно для оценки качества любых рекомендательных систем, так как в их основе лежат общие алгоритмы.

Yambda включает агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики треков. Все данные о пользователях и треках анонимизированы: датасет содержит исключительно числовые идентификаторы, что обеспечивает конфиденциальность. 

Регион: 

Рубрики: 

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!