Papers·1개월 전

SleepWalk: VLM의 3D 공간 추론 한계를 드러낸 벤치마크

SleepWalk는 텍스트로 생성된 3D 환경에서 VLM이 자연어 명령을 기반으로 충돌 없이 동작 가능한 위치까지의 경로를 예측하는 능력을 평가하는 벤치마크입니다. 2,472개 환경과 9개 명령어씩 총 22,248개 태스크로 구성되며, 난이도에 따라 세 단계로 나뉩니다. 세 가지 최신 VLM을 평가한 결과, 특히 가려짐, 상호작용 제약, 다단계 명령에서 성능이 급감하는 등 공간 추론의 체계적 한계가 드러났습니다. 단, 모든 환경이 단일 장면(single-scene)이고 텍스트로 생성된 가상 환경이라는 점에서 실제 세계와의 괴리는 고려해야 합니다.

#vlm
#embodied-ai
#benchmark
#spatial-reasoning
#3d-environments

Niyati Rawal

원문 보기 →

SleepWalk: VLM의 3D 공간 추론 한계를 드러낸 벤치마크

Comments