← Back to feed
Papers·4일 전

VLM 공간 추론의 과신 문제 — SpatialUncertain 벤치마크, occlusion·perspective ambiguity 에서 정확도 30% 이하

VLM 공간 추론의 과신 문제 — SpatialUncertain 벤치마크, occlusion·perspective ambiguity 에서 정확도 30% 이하

VLM 이 불완전한 시각 정보(occlusion, perspective ambiguity)에서도 과신하며 답을 내는 문제를 지적한 SpatialUncertain 벤치마크가 공개됐습니다. occlusion 조건에서 평균 정확도 30%, perspective ambiguity 에서는 10% 미만으로 떨어지며, 추가 시점 중 어떤 것이 신뢰할 만한지 식별하는 능력도 random 수준에 가깝다는 점이 핵심입니다. 저자들은 단순 정답률을 넘어 'abstain' 할 줄 아는 능력 평가가 필요하다고 주장합니다.

VLM 이 불완전한 시각 정보 앞에서도 과신하며 답을 내는 문제를 체계적으로 평가한 SpatialUncertain 벤치마크가 나왔습니다.

핵심 결론

  • 태스크Occlusion 과 perspective ambiguity 두 가지 관찰 제약을 도입해 VLM 의 spatial reasoning 능력을 평가.
  • 수치Occlusion 조건에서 평균 정확도 30%, perspective ambiguity 에서 10% 미만 — clean 조건 대비 급락.
  • 취약점모델들이 '답할 수 없음'을 인지하지 못하고 과신하는 경향이 일관되게 관찰됨.

방법

  • SpatialUncertainControlled evaluation framework 로, occlusion 은 target 정보를 숨기고 perspective ambiguity 는 오해를 유발하는 시각 단서를 제공.
  • 평가 항목답변 가능 여부(abstention) + 어떤 추가 시점이 ambiguity 를 해소할지 식별하는 능력까지 측정.
  • 모델다양한 open/closed-source VLM (GPT-4V, Gemini, LLaVA 등) 대상으로 실험.

한계·조건

  • 범위벤치마크는 합성 환경에서 제작되어 실제 복잡한 scene 에서의 일반화는 아직 미검증.
  • 재현성코드와 데이터는 공개 예정 — 현재는 abstract 만 열람 가능.
  • 과제모델이 'abstain'을 학습하도록 하는 방법론은 아직 제안되지 않음 — 문제 진단에 초점.

편집자 한 줄

정답률만 높이는 방향으로 최적화된 VLM 에게 '모르면 모른다고 말하기'는 꽤 어려운 과제일 듯합니다.

  • #spatial-reasoning
  • #vlm
  • #benchmark
  • #uncertainty
  • #abstention
Yue Zhang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —