← Back to feed
Papers·2주 전

VLM, 공간 수치 이해 거의 실패 — SpaceNum 벤치에서 random guess 수준

VLM, 공간 수치 이해 거의 실패 — SpaceNum 벤치에서 random guess 수준

Jianshu Zhang 팀이 VLM의 공간 수치 이해를 평가하는 SpaceNum 프레임워크를 제안했습니다. 동적 전환과 정적 배치 두 설정에서 Num2Space/Space2Num 양방향 태스크를 설계했는데, 현재 VLM들은 대부분 random guess에 가까운 성능을 보였습니다. 오류 분석 결과 모델이 얕은 공간 단서에 의존하고, 좌표 인식 표현이 불안정하며, 구조화된 공간 배치를 추상화하지 못하는 것으로 나타났습니다. Fine-tuning으로 일부 개선이 가능하지만 근본적 한계가 뚜렷합니다.

VLM이 내놓는 수치 출력(행동 크기, 좌표 등)이 실제 공간 인식에 기반하는지 의문을 제기하며, Jianshu Zhang 팀이 체계적 평가 프레임워크 SpaceNum을 공개했습니다.

핵심 결론

  • 벤치SpaceNum의 두 설정(동적 전환, 정적 배치)과 양방향 태스크(Num2Space, Space2Num)에서 현재 VLM들은 대부분 random guess 수준의 성능을 기록했습니다.
  • 분석오류 분석, 추론 경로 분석, 통제된 개입 실험을 통해 모델이 얕은 공간 단서에 의존하고 좌표 인식 표현이 불안정함을 확인했습니다.

방법

  • SpaceNum동적 전환(공간 탐색 중 수치 변화)과 정적 배치(공간 추론에서 수치 배치) 두 설정을 포괄하는 통합 프레임워크입니다.
  • 태스크Num2Space(수치→공간 매핑)와 Space2Num(공간→수치 매핑) 양방향으로 설계되어, VLM의 시각-언어 간 수치 이해를 종합 평가합니다.

한계·조건

  • 모델실험에 사용된 VLM들은 공개된 최신 모델들이지만, SpaceNum은 특정 모델에 국한되지 않은 일반 프레임워크입니다.
  • 개선명시적 추론(chain-of-thought)은 미미한 향상만 제공했고, fine-tuning은 일부 개선이 가능하지만 근본적 한계를 넘지 못했습니다.
  • 코드SpaceNum 벤치마크는 공개 예정입니다.

편집자 한 줄

VLM의 수치 출력이 단순 패턴 매칭에 가깝다는 점을 체계적으로 보여준 연구입니다. 공간 추론이 필요한 로봇 등 embodied AI에 시사하는 바가 크네요.

  • #vlm
  • #spatial-reasoning
  • #numerical-understanding
  • #benchmark
Jianshu Zhang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —