Papers·5일 전
TuneJury 보상 모델로 텍스트-음악 생성 효율성 높이기 — ATTM Grand Challenge 120M 모델

ICME 2026 ATTM Grand Challenge 효율성 트랙에서 TuneJury 팀이 120M 파라미터 FluxAudio-S 백본에 인간 선호 보상 모델을 결합해 FAD-CLAP 및 CLAP 점수를 개선했습니다. TuneJury는 오픈 음악 선호 데이터셋으로 학습된 쌍별 순위 모델로, 학습 시 보상 조건화와 추론 시 샘플 선택 기준으로 사용됩니다. 파이프라인은 다섯 가지 엔지니어링 결정(학습 보상 조건화, 다섯 가지 점수 조건화 아키텍처 탐색, 상위 10% 전문가 반복, 짧은 선호 튜닝(CRPO), 추론 후처리)으로 구성되며, 100개 Song Describer 프롬프트 분석 결과 전문가 반복이 가장 큰 기여를 했고, 선호 튜닝은 잡음 수준의 이득만을 보였습니다.
TuneJury 팀이 ICME 2026 ATTM Grand Challenge 효율성 트랙에서 인간 선호 보상 모델을 활용해 텍스트-음악 생성 효율성을 높인 접근법을 공개했습니다.
핵심 결론
- 벤치 — ATTM challenge의 FAD-CLAP 및 CLAP 점수 기준으로 baseline 대비 개선, 세부 수치는 논문 참조.
- 모델 — 120M 파라미터 FluxAudio-S 백본 사용.
방법
- TuneJury 보상 — 오픈 음악 선호 데이터셋으로 학습된 쌍별 순위 모델로, 학습 시 조건화 신호와 추론 시 샘플 선택 기준으로 사용.
- 파이프라인 — 다섯 가지 결정: 학습 보상 조건화(CFG 축으로도 사용), 5가지 점수 조건화 아키텍처 탐색, 상위 10% 전문가 반복, CRPO 선호 튜닝, 추론 후처리(CFG, 소스 분리, 라우드니스 정규화).
- 기여 분석 — 100개 프롬프트 실험에서 전문가 반복이 가장 큰 기여, 선호 튜닝은 잡음 수준 이득, 추론 점수는 이미 포화 상태.
한계·조건
- 데이터 — TuneJury는 오픈 데이터셋 기반, 도메인 한계 가능성.
- 재현성 — 코드 공개 여부는 명시되지 않음.
편집자 한 줄
전문가 반복이 단순 선호 튜닝보다 효과적이라는 점은, 작은 모델에서는 데이터 효율이 중요함을 시사합니다.
- #text-to-music
- #preference-tuning
- #reward-model
- #tunejury
- #icme2026
TuneJury