Papers·1개월 전

ViMU: 영상의 은유·아이러니·사회적 함의를 평가하는 최초의 벤치마크

기존 영상 이해 모델이 객체·행동 인식에 집중한 반면, 영상에 내재된 은유·아이러니·사회적 비판 등 암시적 의미(subtext)를 체계적으로 평가하는 벤치마크 ViMU가 공개됐습니다. ViMU는 힌트 없이 개방형·객관식 질문을 통해 모델이 영상의 다중 양식 증거를 바탕으로 함축적 의미를 추론하는 능력을 측정합니다. 문화·사회 집단에 따라 해석이 달라질 수 있는 점이 도전 과제입니다.

#video-understanding
#benchmark
#subtext
#multimodal

Qi Li

원문 보기 →

ViMU: 영상의 은유·아이러니·사회적 함의를 평가하는 최초의 벤치마크

Comments