Papers·1개월 전

MERIT — 멜로디·리듬·음색을 분리한 음악 유사도 학습 프레임워크

AMAAI Lab 팀이 음악 유사도를 멜로디·리듬·음색 세 차원으로 분리해 학습하는 MERIT 프레임워크를 공개했습니다. 조건부 오디오 생성과 소스 분리 스템을 활용해 단일 요인 변동을 강제하는 훈련 전략이 핵심이며, 각 헤드가 의도한 차원에만 강하게 반응하고 다른 차원에는 무반응에 가깝다는 점을 실험으로 확인했습니다. 다만 평가가 합성 데이터와 일부 실제 오디오에 국한되어 있어, 다양한 장르·환경에서의 일반화는 추가 검증이 필요합니다.

AMAAI Lab 팀이 음악 유사도를 멜로디·리듬·음색 세 차원으로 분리해 학습하는 MERIT 프레임워크를 공개했습니다.

핵심 결론

태스크 — 음악 유사도 학습에서 멜로디·리듬·음색 세 차원을 분리한 표현 학습.
성능 — 각 헤드가 의도한 차원에만 강하게 반응하고, 다른 차원에는 거의 무반응 — factor-wise disentanglement 달성.
합성 도메인과 실제 오디오 모두에서 동일한 분리 특성이 유지됨을 확인했습니다.

방법

훈련 전략 — 조건부 오디오 생성과 소스 분리 스템을 이용해 단일 요인만 변동하는 훈련 데이터를 만드는 게 핵심 아이디어.
아키텍처 — 세 개의 독립 헤드로 각각 멜로디·리듬·음색을 담당하며, 기존 단일 스코어 방식과 달리 사용자가 원하는 차원별로 유사도를 조절 가능.
실제 오디오에는 단일 요인 변동이 드물다는 문제를 생성적 데이터 증강으로 우회한 점이 흥미로운 포인트네요.

한계·조건

평가 범위 — 합성 데이터와 일부 실제 오디오에 국한 — 다양한 장르·환경에서의 일반화는 추가 검증 필요.
코드 공개 — 현재 abstract와 figure만 공개, 코드 및 모델 가중치는 미공개 상태.

편집자 한 줄

음악 검색·추천에서 요인별 제어가 가능해진다는 점에서 실용적 가치가 있는 접근입니다. 다만 실제 서비스에 쓰이려면 더 다양한 장르와 노이즈 환경에서의 robustness를 확인해야 할 것 같습니다.

#music-similarity
#disentangled-representation
#merit
#amaai-lab

AMAAI Lab

원문 보기 →

MERIT — 멜로디·리듬·음색을 분리한 음악 유사도 학습 프레임워크

핵심 결론

방법

한계·조건

Comments