Papers·1주 전
Tsinghua SpatialAct 벤치마크 — VLM 의 다중 턴 공간 추론에서 행동-추론 간극 확인

Tsinghua 대학 팀이 VLM 의 공간 추론 능력을 행동(action) 조건에서 평가하는 벤치마크 SpatialAct 를 공개했습니다. Multi-turn Interactive Refinement 태스크에서 현재 VLM 은 단일 추론 태스크에서는 준수한 성능을 보이나, 다중 턴 피드백을 통해 행동을 정제하는 과정에서 공간 상태 추적에 실패하며 인간 대비 현저히 낮은 성능을 기록했습니다. 이는 VLM 이 환경 변화에 따른 공간 상태를 안정적으로 유지하지 못함을 시사합니다.
Tsinghua 대학 연구팀이 VLM 의 공간 추론 능력을 행동 조건에서 평가하는 벤치마크 SpatialAct 를 제안했습니다.
핵심 결론
- 태스크 — Multi-turn Interactive Refinement 에서 VLM 은 평균 성공률 30% 미만으로 인간(80% 이상) 대비 큰 격차를 보였습니다.
- 진단 — Single-step Error Detection and Fix 에서도 VLM 은 오류 탐지 정확도 60% 내외로, 근본 원인을 정확히 파악하지 못하는 경향을 보였습니다.
방법
- 벤치마크 구조 — SpatialAct 는 3D 시뮬레이터 기반으로, 다중 턴 상호작용을 통한 공간 추론을 측정합니다. 가장 어려운 Multi-turn Interactive Refinement 와 이를 분해한 Single-step Error Detection and Fix, 그리고 5가지 기본 공간 능력 태스크로 구성됩니다.
- 기본 태스크에는 객체 위치 추정, 방향 판단, 경로 계획 등이 포함되어 있어, VLM 의 공간 추론 능력을 계층적으로 진단할 수 있습니다.
한계·조건
- 환경 — 벤치마크는 시뮬레이터 기반으로, 실제 로봇 환경과의 괴리가 있을 수 있습니다.
- 모델 — 평가된 VLM 은 GPT-4V, Gemini Pro Vision 등 상용 모델로, 오픈소스 모델에 대한 결과는 포함되지 않았습니다.
- 코드 — 벤치마크 코드와 데이터는 GitHub 에 공개 예정이라고 합니다.
편집자 한 줄
VLM 의 공간 추론이 단일 질문-응답에서는 잘 통하지만, 연속된 행동을 요구하면 무너진다는 점이 인상적입니다. 실제 로봇 조작 등 downstream 에 시사하는 바가 크네요.
- #spatial-reasoning
- #vlm
- #benchmark
- #tsinghua
FIBLAB, Tsinghua University