Papers·3일 전
MMAE: 대규모 멀티태스크 오디오 편집 벤치마크 — 7개 모달리티, 6단계 복잡도, 2,000 샘플

Ziyang Ma 팀이 범용 명령 기반 오디오 편집을 위한 첫 포괄적 벤치마크 MMAE를 공개했습니다. 7개 오디오 모달리티(음향, 음성, 음악 및 혼합)를 아우르며 6단계 태스크 복잡도, 2단계 세분성, 8개 연산 유형으로 구성된 2,000개 고충실도 샘플을 포함합니다. Rubric 기반 평가 프레임워크로 17,741개 검증 기준을 통해 명령 수행과 맥락 일관성을 다차원 평가합니다. 주요 모델 평가 결과 Exact Match Rate(EMR)가 5% 미만, 복합 혼합 모달리티 태스크에서는 0%로, 현 시스템이 신뢰할 만한 편집에 크게 미달함을 드러냈습니다.
Ziyang Ma 팀이 범용 명령 기반 오디오 편집을 위한 첫 포괄적 벤치마크 MMAE를 공개했습니다.
핵심 결론
- 벤치 규모 — 7개 오디오 모달리티(음향, 음성, 음악 및 혼합)를 포함한 2,000개 고충실도 샘플.
- 평가 체계 — 17,741개 검증 기준의 rubric 기반 평가로 명령 수행과 맥락 일관성을 다차원 측정.
- 현 모델 성능 — EMR이 전반적으로 5% 미만, 복합 혼합 모달리티 태스크에서는 0%로 현저히 낮음.
방법
- 태스크 분류 — 6단계 복잡도(기본 수정부터 다중 홉 추론, 다중 라운드 편집), 2단계 세분성, 8개 연산 유형.
- 데이터 수집 — 인간-에이전트 협업으로 큐레이션, 고충실도 샘플 확보.
- 평가 방식 — rubric 기반 프레임워크로 자유형 태스크를 17,741개 검증 기준으로 분해하여 정밀 평가.
한계·조건
- 벤치 범위 — 오디오 편집에 국한되며, 비디오-오디오 결합 등 크로스모달 시나리오는 포함되지 않음.
- 재현성 — 데이터셋 및 평가 코드는 공개 예정이며, 현재는 abstract와 figure만 확인 가능.
편집자 한 줄
오디오 편집 분야에서 통합 벤치마크의 부재를 해결한 점은 의미 있지만, 현 모델의 EMR이 0%인 태스크가 존재한다는 점에서 실용적 개선 여지가 큽니다.
- #audio-editing
- #benchmark
- #multimodal
- #evaluation
- #mmae
Ziyang Ma