Papers·6일 전
UW, VLM 공간 추론 개선하는 Imaginative Perception Tokens — PET/PT/MVC 벤치에서 최대 3.4% 향상

University of Washington 팀이 VLM의 공간 추론을 위해 Imaginative Perception Tokens (IPT)를 제안했습니다. IPT는 관찰되지 않은 시점에서의 지각을 외부화하는 중간 표현으로, Perspective Taking, Path Tracing, Multiview Counting 세 가지 태스크에서 약 20K 예제로 학습합니다. BAGEL 백본에서 IPT 지도 학습은 텍스트 chain-of-thought보다 일관되게 우수했으며, MVC에서 3.4% 정확도 향상을 보였습니다. 단, 텍스트 CoT는 공간 추론에서 오히려 성능을 저하시킬 수 있다는 점이 한계입니다.
UW 팀이 VLM이 보지 못한 공간 정보를 추론하도록 돕는 중간 표현 IPT를 공개했습니다.
핵심 결론
- 태스크 — Perspective Taking, Path Tracing, Multiview Counting 세 가지 공간 추론 태스크에서 IPT가 텍스트 CoT보다 우수.
- 수치 — MVC에서 IPT는 3.4% 정확도 향상, PT에서도 강한 폐쇄형 모델과 경쟁력 있는 성능.
- 백본 — 통합 VLM BAGEL 사용, 추론 시 이미지 생성 없이 IPT만으로 동작.
방법
- IPT 정의 — 대체 공간 구성 하에서 VLM이 지각할 내용을 외부화한 중간 표현 토큰. 관찰된 입력과 일관성을 유지.
- 데이터 — 약 20K 예제로 구성된 데이터셋에 ground truth imagination, 정답, 평가 벤치마크 포함.
- IPT와 레이블 전용 지도 학습을 결합하면 추가 이득이 있었으나, 텍스트 CoT는 공간 계산을 언어로 강제할 때 성능 저하를 초래.
한계·조건
- 범위 — 세 가지 태스크에 국한되며, 더 다양한 공간 추론 태스크로의 일반화는 추가 검증 필요.
- 코드 — 논문에서 데이터셋과 코드 공개 여부는 명시되지 않았습니다.
- 계산량 — IPT 학습에 추가적인 중간 표현이 필요하나, 추론 시 오버헤드는 크지 않은 편.
편집자 한 줄
텍스트 CoT가 공간 추론에서 오히려 방해가 된다는 관찰은 흥미롭습니다. IPT가 언어 모달리티의 한계를 우회하는 실용적인 대안이 될 수 있을지 지켜볼 만합니다.
- #vision-language-models
- #spatial-reasoning
- #university-of-washington
- #perception-tokens
University of Washington