Papers·1개월 전

멀티모달 음악 추천 프레임워크 — 오디오·가사·청취율 결합으로 Recall 최대 95% 향상

LastFM-1K 데이터셋에 오디오·가사 임베딩, LLM 생성 의미 메타데이터, 청취 완료율을 결합한 멀티모달 추천 프레임워크를 제안했습니다. E4SRec 기반으로 SASRec, BERT4Rec, GRU4Rec, LLaMa 계열 등 다양한 백본을 실험한 결과, 콘텐츠 기반 특징을 통합했을 때 ID 기반 대비 Recall 최대 95%, NDCG 최대 79% 개선을 확인했습니다. 단, 단순 멀티모달 융합이 항상 성능 향상으로 이어지지는 않아 교차 모달 통합의 어려움을 드러냈습니다.

세션 기반 음악 추천에 오디오, 가사, 청취율을 모두 통합한 LLM 기반 멀티모달 프레임워크를 제안합니다.

핵심 결론

성능 — ID 기반 대비 Recall 최대 95%, NDCG 최대 79% 향상.
백본 — SASRec, BERT4Rec, GRU4Rec, LLaMa-2-13B, Qwen2.5-7B, LLaMa-3-70B 등 다양한 아키텍처에서 일관된 개선을 확인.

방법

신호 — 사전학습 모델로 추출한 오디오·가사 임베딩, MGPHot 스키마 기반 LLM 생성 의미 메타데이터, 청취 완료율을 결합.
프레임워크 — E4SRec 프레임워크를 확장해 멀티모달 특징을 아이템 ID 인코더에 주입.
LLM 백본은 zero-shot 및 fine-tuned 설정 모두 실험했습니다.

한계·조건

데이터 — LastFM-1K 데이터셋 기반으로, 규모가 작고 장르 다양성이 제한적일 수 있습니다.
융합 — 단순 멀티모달 융합이 항상 이득이 되지는 않아, 효과적인 교차 모달 통합 전략이 추가로 필요합니다.
코드 — 데이터셋과 벤치마크는 공개되었으나, 전체 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

음악 추천에서 콘텐츠 기반 신호의 효과를 체계적으로 보여준 점이 인상적입니다. 다만 LastFM-1K의 규모와 도메인 한계를 고려하면, 실제 서비스 규모에서의 검증이 필요해 보입니다.

#music-recommendation
#multimodal
#llm
#lastfm

Srikar Prabhas Kandagatla

원문 보기 →

멀티모달 음악 추천 프레임워크 — 오디오·가사·청취율 결합으로 Recall 최대 95% 향상

핵심 결론

방법

한계·조건

Comments