Papers·6일 전
VLM vs VGM, 공간 지능에 더 나은 사전 학습은? — OM AI Lab 체계적 비교

OM AI Lab이 VLM과 VGM의 frozen representation을 semantic tagging, instance grouping, 3D geometry 예측 세 축에서 처음으로 체계적으로 비교했습니다. VLM은 의미·군집에 강하고, VGM은 밀집 기하·카메라 움직임에 더 나은 신호를 제공한다는 상보성을 발견했습니다. 단순 특성 융합만으로 두 영역 모두에서 성능이 향상되어, 통합 백본의 가능성을 시사합니다.
OM AI Lab이 VLM과 VGM의 frozen representation을 공간 지능 세 축에서 체계적으로 비교한 첫 연구를 공개했습니다.
핵심 결론
- 비교 축 — semantic tagging, instance grouping, 3D geometry prediction 세 가지로 평가.
- 상보성 — VLM은 의미·군집에 강하고, VGM은 밀집 기하·카메라 움직임에 더 나은 신호를 제공.
- 융합 효과 — 두 특성을 단순히 합친 naive fusion이 기하와 의미 모두에서 단일 모델보다 우수.
방법
- 프로빙 — frozen representation 위에 lightweight probe를 붙여 통제된 비교를 수행.
- 모델 — VLM으로 CLIP, VGM으로 VideoMAE 등 대표 모델 사용.
- 데이터 — ScanNet, NYUv2 등 3D/비디오 데이터셋 활용.
한계·조건
- 범위 — 프로빙 방식이므로 fine-tuning 시 결과가 달라질 수 있음.
- 코드 — GitHub에 공개되어 재현 가능.
편집자 한 줄
두 패밀리의 상보성을 실험적으로 확인한 점이 의미 있네요. 실제 통합 백본 설계로 이어질지 지켜볼 만합니다.
- #spatial-intelligence
- #vlm
- #vgm
- #om-ai-lab
- #representation-learning
Om AI Lab