← Back to feed
Papers·5일 전

TuneJury 보상 모델로 텍스트-음악 생성 효율성 높이기 — ATTM Grand Challenge 120M 모델

TuneJury 보상 모델로 텍스트-음악 생성 효율성 높이기 — ATTM Grand Challenge 120M 모델

ICME 2026 ATTM Grand Challenge 효율성 트랙에서 TuneJury 팀이 120M 파라미터 FluxAudio-S 백본에 인간 선호 보상 모델을 결합해 FAD-CLAP 및 CLAP 점수를 개선했습니다. TuneJury는 오픈 음악 선호 데이터셋으로 학습된 쌍별 순위 모델로, 학습 시 보상 조건화와 추론 시 샘플 선택 기준으로 사용됩니다. 파이프라인은 다섯 가지 엔지니어링 결정(학습 보상 조건화, 다섯 가지 점수 조건화 아키텍처 탐색, 상위 10% 전문가 반복, 짧은 선호 튜닝(CRPO), 추론 후처리)으로 구성되며, 100개 Song Describer 프롬프트 분석 결과 전문가 반복이 가장 큰 기여를 했고, 선호 튜닝은 잡음 수준의 이득만을 보였습니다.

TuneJury 팀이 ICME 2026 ATTM Grand Challenge 효율성 트랙에서 인간 선호 보상 모델을 활용해 텍스트-음악 생성 효율성을 높인 접근법을 공개했습니다.

핵심 결론

  • 벤치ATTM challenge의 FAD-CLAP 및 CLAP 점수 기준으로 baseline 대비 개선, 세부 수치는 논문 참조.
  • 모델120M 파라미터 FluxAudio-S 백본 사용.

방법

  • TuneJury 보상오픈 음악 선호 데이터셋으로 학습된 쌍별 순위 모델로, 학습 시 조건화 신호와 추론 시 샘플 선택 기준으로 사용.
  • 파이프라인다섯 가지 결정: 학습 보상 조건화(CFG 축으로도 사용), 5가지 점수 조건화 아키텍처 탐색, 상위 10% 전문가 반복, CRPO 선호 튜닝, 추론 후처리(CFG, 소스 분리, 라우드니스 정규화).
  • 기여 분석100개 프롬프트 실험에서 전문가 반복이 가장 큰 기여, 선호 튜닝은 잡음 수준 이득, 추론 점수는 이미 포화 상태.

한계·조건

  • 데이터TuneJury는 오픈 데이터셋 기반, 도메인 한계 가능성.
  • 재현성코드 공개 여부는 명시되지 않음.

편집자 한 줄

전문가 반복이 단순 선호 튜닝보다 효과적이라는 점은, 작은 모델에서는 데이터 효율이 중요함을 시사합니다.

  • #text-to-music
  • #preference-tuning
  • #reward-model
  • #tunejury
  • #icme2026
TuneJury
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —