Papers·어제
MetaphorVU-Bench: MLLM 은유적 비디오 이해 평가 — 인간 대비 42% 격차, 지식 그래프로 11% 개선

Zhuoqun Li 팀이 MLLM의 고차원 인지 능력 평가를 위한 첫 체계적 벤치마크 MetaphorVU-Bench를 공개했습니다. 14개 MLLM 평가 결과, 최고 모델도 인간 대비 42% 낮은 정확도를 기록했으며, 주요 실패 원인은 도메인 간 매핑(cross-domain mapping) 결함으로 분석됐습니다. 이에 저자들은 은유 지식 그래프를 활용한 추론 시 enhancement 프레임워크 MetaphorBoost를 제안, 평균 11% 일관된 성능 향상을 보였습니다. 벤치마크와 코드는 공개 예정이며, 현재 1,000개 샘플 규모로 특정 도메인(광고·영화)에 편중된 한계가 있습니다.
- #mllm
- #benchmark
- #metaphor
- #video-understanding
- #knowledge-graph
Zhuoqun Li