Papers·1개월 전

GeoVR: 2D 비디오만으로 MLLM에 3D 공간 인식 주입 — 공간 추론 SOTA

멀티모달 LLM은 2D 의미 이해에 뛰어나지만 3D 공간 인식이 부족한 문제를 해결하기 위해, GeoVR은 2D 비디오 시퀀스만으로 기하학적 표현을 학습하는 프레임워크를 제안합니다. 사전 학습된 3D 기반 모델로부터 지식을 증류하여 MLLM의 내부 표현을 재구성하며, 네 가지 기하학적 목표(카메라 포즈 추정, 깊이 맵 회귀, 미터법 스케일 예측, 다중 스케일 3D 특징 증류)를 동시에 최적화합니다. 공간 추론 벤치마크에서 SOTA를 달성했지만, 3D 데이터 부족을 극복한 접근이라는 점에서 한계가 명확합니다.

2D 비디오만으로 MLLM에 3D 공간 인식을 주입하는 GeoVR 프레임워크가 공간 추론 벤치마크에서 SOTA를 기록했습니다.

핵심 결론

태스크 — 공간 추론 벤치마크에서 기존 MLLM 대비 유의미한 성능 향상.
접근 — 2D 비디오만 사용하여 3D 기반 모델의 지식을 증류, 별도의 3D 데이터 없이 공간 인식 획득.

방법

4가지 목표 — 카메라 포즈 추정, 깊이 맵 회귀, 미터법 스케일 예측, 다중 스케일 3D 특징 증류를 동시에 학습.
내부 표현을 직접 재구성하는 방식으로, 단순한 특징 결합이 아닌 MLLM의 잠재 공간을 기하학적으로 정렬합니다.

한계·조건

데이터 — 2D 비디오만으로 학습하지만, 증류에 사용되는 3D 기반 모델은 대규모 3D 데이터로 사전 학습되어 있어 완전한 3D 데이터 불필요는 아닙니다.
벤치마크 — 공간 추론에 특화된 벤치마크에서 평가되었으며, 일반적인 VQA 태스크에서의 영향은 보고되지 않았습니다.

편집자 한 줄

3D 데이터 부족을 2D 비디오와 증류로 우회한 전략은 현실적이지만, 증류 대상 모델의 성능에 의존적이라는 점은 숙고할 부분입니다.

#multimodal
#3d-awareness
#spatial-reasoning
#geometric-learning
#mllm

Haibo Wang

원문 보기 →

GeoVR: 2D 비디오만으로 MLLM에 3D 공간 인식 주입 — 공간 추론 SOTA

핵심 결론

방법

한계·조건

Comments