Papers·1개월 전

VLM의 시각적 맹점: 정보이론적 프레임워크로 측정한 '보는 비용'

현재 VLM(Vision-Language Model)이 시각 정보를 충실히 활용하지 못하고 언어 prior에 의존하는 '기능적 맹목'을 지적한 논문이 나왔습니다. 저자들은 기존 평가 방식이 데이터셋 편향과 구조적 한계를 혼동한다고 비판하며, Modality Translation Protocol이라는 정보이론적 접근을 제안합니다. '보는 비용'을 정량화하는 세 가지 지표(Toll, Curse, Fallacy of Seeing)와 Semantic Sufficiency Criterion(SSC)을 도입했고, 언어 모델이 커질수록 시각 병목의 패널티가 오히려 증가할 수 있다는 '멀티모달 스케일링의 발산 법칙'을 가설로 세웠습니다. 실험 데이터나 벤치마크 수치는 아직 없고, 개념적 프레임워크 제안에 가깝다는 점이 한계입니다.

#vision-language-models
#multimodal
#evaluation
#information-theory

Karan Goyal

원문 보기 →

VLM의 시각적 맹점: 정보이론적 프레임워크로 측정한 '보는 비용'

Comments