Papers·1개월 전

VLM 공간 추론의 과신 문제 — SpatialUncertain 벤치마크, occlusion·perspective ambiguity 에서 정확도 30% 이하

VLM 이 불완전한 시각 정보(occlusion, perspective ambiguity)에서도 과신하며 답을 내는 문제를 지적한 SpatialUncertain 벤치마크가 공개됐습니다. occlusion 조건에서 평균 정확도 30%, perspective ambiguity 에서는 10% 미만으로 떨어지며, 추가 시점 중 어떤 것이 신뢰할 만한지 식별하는 능력도 random 수준에 가깝다는 점이 핵심입니다. 저자들은 단순 정답률을 넘어 'abstain' 할 줄 아는 능력 평가가 필요하다고 주장합니다.

VLM 이 불완전한 시각 정보 앞에서도 과신하며 답을 내는 문제를 체계적으로 평가한 SpatialUncertain 벤치마크가 나왔습니다.

핵심 결론

태스크 — Occlusion 과 perspective ambiguity 두 가지 관찰 제약을 도입해 VLM 의 spatial reasoning 능력을 평가.
수치 — Occlusion 조건에서 평균 정확도 30%, perspective ambiguity 에서 10% 미만 — clean 조건 대비 급락.
취약점 — 모델들이 '답할 수 없음'을 인지하지 못하고 과신하는 경향이 일관되게 관찰됨.

방법

SpatialUncertain — Controlled evaluation framework 로, occlusion 은 target 정보를 숨기고 perspective ambiguity 는 오해를 유발하는 시각 단서를 제공.
평가 항목 — 답변 가능 여부(abstention) + 어떤 추가 시점이 ambiguity 를 해소할지 식별하는 능력까지 측정.
모델 — 다양한 open/closed-source VLM (GPT-4V, Gemini, LLaVA 등) 대상으로 실험.

한계·조건

범위 — 벤치마크는 합성 환경에서 제작되어 실제 복잡한 scene 에서의 일반화는 아직 미검증.
재현성 — 코드와 데이터는 공개 예정 — 현재는 abstract 만 열람 가능.
과제 — 모델이 'abstain'을 학습하도록 하는 방법론은 아직 제안되지 않음 — 문제 진단에 초점.

편집자 한 줄

정답률만 높이는 방향으로 최적화된 VLM 에게 '모르면 모른다고 말하기'는 꽤 어려운 과제일 듯합니다.

#spatial-reasoning
#vlm
#benchmark
#uncertainty
#abstention

Yue Zhang

원문 보기 →

VLM 공간 추론의 과신 문제 — SpatialUncertain 벤치마크, occlusion·perspective ambiguity 에서 정확도 30% 이하

핵심 결론

방법

한계·조건

Comments