Papers·4일 전
VLM 공간 추론의 과신 문제 — SpatialUncertain 벤치마크, occlusion·perspective ambiguity 에서 정확도 30% 이하

VLM 이 불완전한 시각 정보(occlusion, perspective ambiguity)에서도 과신하며 답을 내는 문제를 지적한 SpatialUncertain 벤치마크가 공개됐습니다. occlusion 조건에서 평균 정확도 30%, perspective ambiguity 에서는 10% 미만으로 떨어지며, 추가 시점 중 어떤 것이 신뢰할 만한지 식별하는 능력도 random 수준에 가깝다는 점이 핵심입니다. 저자들은 단순 정답률을 넘어 'abstain' 할 줄 아는 능력 평가가 필요하다고 주장합니다.
VLM 이 불완전한 시각 정보 앞에서도 과신하며 답을 내는 문제를 체계적으로 평가한 SpatialUncertain 벤치마크가 나왔습니다.
핵심 결론
- 태스크 — Occlusion 과 perspective ambiguity 두 가지 관찰 제약을 도입해 VLM 의 spatial reasoning 능력을 평가.
- 수치 — Occlusion 조건에서 평균 정확도 30%, perspective ambiguity 에서 10% 미만 — clean 조건 대비 급락.
- 취약점 — 모델들이 '답할 수 없음'을 인지하지 못하고 과신하는 경향이 일관되게 관찰됨.
방법
- SpatialUncertain — Controlled evaluation framework 로, occlusion 은 target 정보를 숨기고 perspective ambiguity 는 오해를 유발하는 시각 단서를 제공.
- 평가 항목 — 답변 가능 여부(abstention) + 어떤 추가 시점이 ambiguity 를 해소할지 식별하는 능력까지 측정.
- 모델 — 다양한 open/closed-source VLM (GPT-4V, Gemini, LLaVA 등) 대상으로 실험.
한계·조건
- 범위 — 벤치마크는 합성 환경에서 제작되어 실제 복잡한 scene 에서의 일반화는 아직 미검증.
- 재현성 — 코드와 데이터는 공개 예정 — 현재는 abstract 만 열람 가능.
- 과제 — 모델이 'abstain'을 학습하도록 하는 방법론은 아직 제안되지 않음 — 문제 진단에 초점.
편집자 한 줄
정답률만 높이는 방향으로 최적화된 VLM 에게 '모르면 모른다고 말하기'는 꽤 어려운 과제일 듯합니다.
- #spatial-reasoning
- #vlm
- #benchmark
- #uncertainty
- #abstention
Yue Zhang