Papers·1개월 전

VLM vs VGM, 공간 지능에 더 나은 사전 학습은? — OM AI Lab 체계적 비교

OM AI Lab이 VLM과 VGM의 frozen representation을 semantic tagging, instance grouping, 3D geometry 예측 세 축에서 처음으로 체계적으로 비교했습니다. VLM은 의미·군집에 강하고, VGM은 밀집 기하·카메라 움직임에 더 나은 신호를 제공한다는 상보성을 발견했습니다. 단순 특성 융합만으로 두 영역 모두에서 성능이 향상되어, 통합 백본의 가능성을 시사합니다.

OM AI Lab이 VLM과 VGM의 frozen representation을 공간 지능 세 축에서 체계적으로 비교한 첫 연구를 공개했습니다.

핵심 결론

비교 축 — semantic tagging, instance grouping, 3D geometry prediction 세 가지로 평가.
상보성 — VLM은 의미·군집에 강하고, VGM은 밀집 기하·카메라 움직임에 더 나은 신호를 제공.
융합 효과 — 두 특성을 단순히 합친 naive fusion이 기하와 의미 모두에서 단일 모델보다 우수.

방법

프로빙 — frozen representation 위에 lightweight probe를 붙여 통제된 비교를 수행.
모델 — VLM으로 CLIP, VGM으로 VideoMAE 등 대표 모델 사용.
데이터 — ScanNet, NYUv2 등 3D/비디오 데이터셋 활용.

한계·조건

범위 — 프로빙 방식이므로 fine-tuning 시 결과가 달라질 수 있음.
코드 — GitHub에 공개되어 재현 가능.

편집자 한 줄

두 패밀리의 상보성을 실험적으로 확인한 점이 의미 있네요. 실제 통합 백본 설계로 이어질지 지켜볼 만합니다.

#spatial-intelligence
#vlm
#vgm
#om-ai-lab
#representation-learning

Om AI Lab

원문 보기 →

VLM vs VGM, 공간 지능에 더 나은 사전 학습은? — OM AI Lab 체계적 비교

핵심 결론

방법

한계·조건

Comments