Papers·1개월 전

비디오 MLLM의 오디오 이해는 시각에 의존 — Clever Hans 효과와 28% 개선한 정렬 레시피

현재 비디오 MLLM의 오디오 이해는 시각 신호에 의존해 오디오를 추론하거나 환각하는 경우가 많다는 분석 결과가 나왔습니다. Google, OpenAI 등 최신 모델에서도 나타난 이 문제를 '오디오-시각 Clever Hans 효과'로 명명하고, 세 가지 반사실적 오디오 편집(Shift, Mute, Swap)을 통해 진단하는 Thud 프레임워크를 제안했습니다. 10K 샘플로 구성된 2단계 정렬 레시피로 세 가지 개입 차원에서 평균 28% 포인트 개선했으며, 일반 비디오 및 오디오-시각 QA 벤치마크 성능도 소폭 향상되었습니다. 단, 실험은 특정 데이터셋과 모델에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

#multimodal
#video-understanding
#audio-visual
#alignment
#mllm

Xiaofei Wen

원문 보기 →

비디오 MLLM의 오디오 이해는 시각에 의존 — Clever Hans 효과와 28% 개선한 정렬 레시피

Comments