Predicting Song Skipping on Spotify -번역

Spotify에서 노래 건너 뛰기 예측

LightGMB를 사용하여 오로지 오디오 기능만을 기반으로 내 노래 건너 뛰기 습관 예측

Introduction

2019 년 초 Spotify는 플랫폼에 대한 흥미로운 통계를 공유했습니다.서비스에있는 3 천 5 백만 곡 이상의 노래 중에서 Spotify 사용자는 20 억 개 이상의 재생 목록을 만들었습니다 (Oskar Stål, 2019).나는 우리의 음악 취향이 우리의 DNA와 같고 70 억 명의 사람들에게 매우 다양하지만 빌딩 블록 (뉴클레오타이드 / 노래)은 같다는 비유를 생각했습니다.결과적으로 Spotify의 비즈니스 모델이 새로운 노래를 추천하는 능력에 의존하기 때문에 사용자의 음악 취향을 추론하는 것이 어렵습니다.

문제 설명

Spotify에는 싫어요 버튼이므로 노래 건너 뛰는 것은 음악 취향을 추론하기 위해 배워야 할 미묘한 단서입니다.이 프로젝트에서는 2019 년 Spotify 스트리밍 기록을 사용하여 오디오 기능만을 기반으로 노래를 건너 뛸지 여부를 예측하는 예측 모델을 구축합니다.

다음 단계에 따라 자신의 Spotify 스트리밍 기록을 요청할 수 있습니다.

Data Descriptions

Spotify 데이터를 요청한 후 2019 년에들은 모든 노래, 아티스트 이름, 스트리밍 시간이 포함 된 ZIP 파일이 포함 된 이메일을 받았습니다.데이터 처리는 다음과 같습니다.

  1. 팟 캐스트를 걸러 내고 노래 만 분석합니다.
  2. Spotify API를 사용하여 노래의 고유 ID와 오디오 기능을 추출했습니다.
  3. 트랙을 스트리밍 한 시간과 노래 길이 사이의 간격을 계산합니다.갭이 60 초를 넘으면 노래를 건너 뛰었다 고 유도합니다.

아래는 단계의 자세한 파이썬 구현입니다.

오디오 특성 만 노래 건너 뛰기에 대해 알려줄 수 있는지 찾는 것이 주장이기 때문에 노래 제목과 아티스트가 포함 된 열을 삭제했습니다.

최종 데이터 세트에는 다음 열이 있습니다.

Image for post

가정

모델링의 중요한 단계는 결과를 적절하게 해석하기 위해 모든 가정과 한계를 배치하는 것입니다.일부 가정은 데이터 수집 프로세스로 인한 것이고 다른 가정은 모델링 프로세스의 일부입니다.

  • 사용자의 음악 취향은 동 질적입니다. 즉, 사용자가 노래를 건너 뛰도록 유도하는 메커니즘은 시간이 지남에 따라 고정됩니다.
  • 노래는 오디오 기능으로 분류되므로 가사는 자연어 텍스트로 해석되지 않습니다.가사 의미가 노래 건너 뛰기의 강력한 예측 요인이 될 수 있으므로이 제한 사항을 고려해야합니다.

모델링

저는 LightGBM 바이너리 분류를 사용하여 오로지 오디오 기능만을 기반으로 내 노래 건너 뛰기 습관을 추론합니다.

Image for post

베이지안 최적화

LightGBM에는 많은 매개 변수가 포함되어 있으므로 가능한 모든 값을 실행하는 대신 초 매개 변수 조정을 위해 베이지안 최적화를 사용했습니다.

Image for post

결과 & amp;토론

이 모델은 74.17 %의 정확도로 개인화 된 데이터에서 더 잘 수행됩니다 (베이 즈 최적화의 28 번째 반복).Spotify 사용자가 동종이라는 가정은 강력한 것이며, 사용자 수준 세부 정보를 더 많이 수집하면 성능이 향상 될 수 있습니다.

전반적으로 추천 엔진에는 사용자에 대한 개인화 된 학습과 노래에 대한 일반적인 학습이 모두 필요합니다.이 프로젝트에서는 오디오 기능, 오디오 및 사용자 기능, 개인 청취 기록 만 사용하여 기계 학습 분류를 실험했습니다.추가 조사에는 데이터가 생성되는 메커니즘을 이해하는 것이 곡선 맞춤보다 더 유익하기 때문에 공변량 간의 인과 관계를 포함 할 수 있습니다.

참고 문헌

  • 오스카 스톨 (2019).Spotify의 음악 추천.Nordic Data Science 및 Machine Learning Summit.다음에서 검색 :https://youtu.be/2VvM98flwq0
  • Brian Brost, Rishabh Mehrotra 및 Tristan Jehan.2019. 음악 스트리밍 세션 데이터 세트.2019 년 월드 와이드 웹 컨퍼런스 (WWW ’19), 2019 년 5 월 13 일 ~ 17 일, 미국 캘리포니아 주 샌프란시스코에서 진행 중.ACM, New York, NY, USA, 7 페이지.https://doi.org/10.1145/3308558.3313641

Leave a Comment