Papers·1개월 전

Tencent Hunyuan, 실시간 3D 공간 이해를 위한 온라인 VLM — 29개 태스크 벤치마크에서 SOTA

Tencent Hunyuan 팀이 스트리밍 비디오로부터 실시간 3D 공간 이해가 가능한 온라인 VLM(Stream3D-VLM)을 공개했습니다. LLM의 next-token 예측 목표를 활용한 자동회귀 스트리밍 제어로 응답 시점을 학습하고, Visual-Spatial Feature Integration(VSFI) 모듈로 시간 정렬된 기하학적 prior를 점진적으로 주입합니다. 또한 Geometry-Adaptive Voxel Compression(GAVC) 모듈로 visual token 압축을 통해 long-context 디코딩 오버헤드를 완화했으며, 100만 개 이상의 온라인 시공간 3D QA 쌍을 생성하는 데이터 파이프라인과 29개 태스크 벤치마크를 구축했습니다. 온라인 및 오프라인 3D 공간 이해·추론·그라운딩에서 기존 모델들을 크게 능가하는 성능을 보였습니다.

Tencent Hunyuan이 스트리밍 비디오 입력으로 실시간 3D 공간 이해를 수행하는 온라인 VLM을 발표했습니다.

핵심 결론

태스크 — 29개 태스크로 구성된 온라인·오프라인 3D 공간 이해·추론·그라운딩 벤치마크에서 기존 오픈소스 및 상용 모델 대비 큰 폭의 성능 향상을 달성했습니다.
데이터 — 100만 개 이상의 온라인 시공간 3D QA 쌍을 자동 생성하는 파이프라인을 구축했으며, 이 데이터로 학습한 모델이 다양한 시나리오에서 강건함을 보였습니다.

방법

스트리밍 제어 — LLM의 next-token 예측 목표를 그대로 활용해 '언제 응답할지'를 학습하는 자동회귀 스트리밍 제어 방식을 도입했습니다.
VSFI — Visual-Spatial Feature Integration 모듈로 시간에 따라 정렬된 기하학적 prior(깊이, 포즈 등)를 시각적 feature에 점진적으로 주입합니다.
GAVC — Geometry-Adaptive Voxel Compression 모듈은 3D 기하 정보를 활용해 visual token 수를 효율적으로 압축, long-context 디코딩 비용을 줄입니다.

한계·조건

환경 — 실시간 처리를 위해 GPU 메모리와 연산량이 상당히 요구될 것으로 예상되며, 구체적인 하드웨어 사양은 논문에 명시되지 않았습니다.
재현성 — 프로젝트 페이지(https://stream3d-vlm.github.io/)는 공개되었으나, 코드와 모델 가중치의 공개 여부는 아직 확인되지 않았습니다.

편집자 한 줄

온라인 3D VLM이라는 새로운 패러다임을 제시한 점이 인상적이며, GAVC의 효율성과 데이터 파이프라인의 확장성이 실제 배포 환경에서도 유효할지 후속 연구가 기대됩니다.

#3d-vlm
#online
#streaming
#tencent
#spatial-understanding

Tencent Hunyuan

원문 보기 →

Tencent Hunyuan, 실시간 3D 공간 이해를 위한 온라인 VLM — 29개 태스크 벤치마크에서 SOTA

핵심 결론

방법

한계·조건

Comments