← Back to feed
Papers·6일 전

VLM vs VGM, 공간 지능에 더 나은 사전 학습은? — OM AI Lab 체계적 비교

VLM vs VGM, 공간 지능에 더 나은 사전 학습은? — OM AI Lab 체계적 비교

OM AI Lab이 VLM과 VGM의 frozen representation을 semantic tagging, instance grouping, 3D geometry 예측 세 축에서 처음으로 체계적으로 비교했습니다. VLM은 의미·군집에 강하고, VGM은 밀집 기하·카메라 움직임에 더 나은 신호를 제공한다는 상보성을 발견했습니다. 단순 특성 융합만으로 두 영역 모두에서 성능이 향상되어, 통합 백본의 가능성을 시사합니다.

OM AI Lab이 VLM과 VGM의 frozen representation을 공간 지능 세 축에서 체계적으로 비교한 첫 연구를 공개했습니다.

핵심 결론

  • 비교 축semantic tagging, instance grouping, 3D geometry prediction 세 가지로 평가.
  • 상보성VLM은 의미·군집에 강하고, VGM은 밀집 기하·카메라 움직임에 더 나은 신호를 제공.
  • 융합 효과두 특성을 단순히 합친 naive fusion이 기하와 의미 모두에서 단일 모델보다 우수.

방법

  • 프로빙frozen representation 위에 lightweight probe를 붙여 통제된 비교를 수행.
  • 모델VLM으로 CLIP, VGM으로 VideoMAE 등 대표 모델 사용.
  • 데이터ScanNet, NYUv2 등 3D/비디오 데이터셋 활용.

한계·조건

  • 범위프로빙 방식이므로 fine-tuning 시 결과가 달라질 수 있음.
  • 코드GitHub에 공개되어 재현 가능.

편집자 한 줄

두 패밀리의 상보성을 실험적으로 확인한 점이 의미 있네요. 실제 통합 백본 설계로 이어질지 지켜볼 만합니다.

  • #spatial-intelligence
  • #vlm
  • #vgm
  • #om-ai-lab
  • #representation-learning
Om AI Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —