Papers·1개월 전

VLM3 — 표준 VLM이 3D 태스크를 마스터하는 법, focal length 통일·텍스트 기반 픽셀 참조·데이터 스케일링

Meta AI 연구진이 표준 VLM 구조를 유지하면서도 3D 깊이 추정(depth estimation) 정확도를 0.84에서 0.9로 끌어올리고, 픽셀 대응·카메라 포즈·객체 수준 3D 이해까지 전문 비전 모델 수준으로 달성하는 VLM3를 제안했습니다. 핵심은 focal length 통일, 텍스트 기반 픽셀 참조, 데이터 혼합 및 스케일링 세 가지로, 복잡한 아키텍처 변경이나 회귀 손실 없이도 가능하다는 점을 대규모 실험으로 보였습니다. 단, 이 결과는 특정 VLM 백본과 데이터셋 조합에 의존적일 수 있어 일반화 검증이 더 필요합니다.

Meta AI 팀이 표준 VLM 구조를 그대로 쓰면서도 3D 태스크 전반에서 전문 모델에 준하는 성능을 내는 VLM3를 공개했습니다.

핵심 결론

깊이 추정 — VLM3는 depth estimation 정확도를 기존 0.84에서 0.9로 개선했습니다.
3D 태스크 — 픽셀 대응(pixel correspondence), 카메라 포즈 추정, 객체 수준 3D 이해에서 전문 모델과 동등한 정확도를 기록했습니다.
구조 — 표준 VLM 아키텍처와 텍스트 기반 학습을 유지했으며, 회귀 손실이나 대규모 모델 변경이 필요하지 않습니다.

방법

focal length 통일 — 입력 이미지의 focal length를 정규화하여 카메라 파라미터 변동에 강건하게 만듭니다.
텍스트 기반 픽셀 참조 — 3D 좌표를 텍스트 토큰으로 표현해 VLM이 직접 픽셀 위치를 참조하도록 합니다.
데이터 혼합과 스케일링 — 다양한 3D 데이터셋을 혼합하고 스케일링 전략을 적용해 일반화 성능을 높였습니다.

한계·조건

백본 의존성 — 실험은 특정 VLM 백본(예: LLaVA)에 기반해 있어 다른 VLM에서의 일반화는 추가 검증이 필요합니다.
데이터 규모 — 데이터 스케일링이 성능에 중요하지만, 어떤 데이터셋 조합이 최적인지는 아직 명확하지 않습니다.
코드 공개 — 현재 논문과 Hugging Face 페이지에서 상세 내용을 확인할 수 있으며, 코드는 추후 공개 예정입니다.

편집자 한 줄

복잡한 3D 파이프라인 없이 VLM 하나로 여러 태스크를 처리할 수 있다는 점이 인상적이지만, 실제 응용에서는 추론 속도와 메모리 비용을 함께 봐야 할 것 같습니다.

#vlm
#3d-understanding
#depth-estimation
#meta-ai

AI at Meta

원문 보기 →

VLM3 — 표준 VLM이 3D 태스크를 마스터하는 법, focal length 통일·텍스트 기반 픽셀 참조·데이터 스케일링

핵심 결론

방법

한계·조건

Comments