Papers·2주 전
GASP: VLM의 3D 공간 추론을 기하학적 사전학습으로 개선 — 내부 대응 정확도 5%→70%, 벤치마크 +18~29%

Chun-Hsiao Yeh 팀이 VLM의 3D 공간 추론을 강화하는 GASP 프레임워크를 제안했습니다. 기존의 3D VQA 미세조정이나 특수 인코더 대신, LLM 트랜스포머 층에 깊은 감독 신호로 대응 헤드를 추가하고, 대규모 비디오 장면의 기하학적 정보(점 대응, 깊이 일관성)를 활용해 학습합니다. 표준 VLM의 내부 대응 정확도가 5% 미만이던 것을 70% 이상으로 끌어올렸으며, All-Angles Bench에서 +18.2%, VSI-Bench에서 +29.0% 향상되었습니다. 단, 3D VQA 데이터 없이 학습했지만, 비디오 데이터의 ground-truth 기하학이 필요하다는 점이 재현성의 한계입니다.
VLM이 3D 공간을 제대로 이해하지 못하는 문제를, 기하학적 사전 지식을 LLM 내부에 주입하는 방식으로 해결한 접근입니다.
핵심 결론
- 성능 — 표준 VLM의 내부 대응 정확도가 5% 미만이었으나 GASP 적용 후 70% 이상으로 상승.
- 벤치마크 — All-Angles Bench +18.2%, VSI-Bench +29.0% — 3D VQA 데이터 없이 달성.
방법
- 핵심 아이디어 — LLM의 모든 트랜스포머 층에 작은 대응 헤드를 추가하고, 대규모 비디오 장면의 ground-truth 점 대응과 깊이 정보로 이중 손실(대조 손실 + 깊이 일관성)을 학습.
- 차별점 — 고수준 VQA 감독이 아닌 저수준 기하학적 priors를 직접 주입해 일반화를 노린 점이 특이합니다.
한계·조건
- 데이터 요구 — 비디오 장면의 ground-truth 기하학 정보(점 대응, 깊이)가 필요해, 기존 VQA 데이터셋보다 구축 비용이 높을 수 있습니다.
- 재현성 — 코드 공개 여부는 명시되지 않았으며, 실험은 특정 VLM 아키텍처에 의존적일 가능성이 있습니다.
편집자 한 줄
3D VQA 데이터 없이도 공간 추론이 크게 개선된 점은 인상적이지만, ground-truth 기하학 데이터 확보가 병목이 될 수 있겠네요.
- #vlm
- #3d-reasoning
- #spatial-priors
- #geometric-learning
Chun-Hsiao Yeh