Papers·1개월 전

Tencent Hunyuan, GEM — VLM 에 depth map 생성 태스크를 통합해 로봇 조작 성능 향상

Tencent Hunyuan 팀이 embodied VLM 에 depth map 생성 태스크를 사전학습 단계에서 함께 학습시키는 GEM 을 제안했습니다. 기존 VLM 이 고수준 의미에 치우친 반면, 저수준 공간·물리 지식을 보강하기 위해 depth map 생성이라는 generative objective 를 추가한 게 핵심입니다. GEM-VLA 는 시뮬레이션과 실제 환경 모두에서 SOTA 를 기록했지만, 4M 규모의 고품질 depth-annotation 데이터셋(GEM-4M)을 별도로 구축해야 한다는 점이 재현성의 걸림돌입니다.

Tencent Hunyuan 팀이 embodied VLM 에 depth map 생성 태스크를 통합해 로봇 조작 성능을 크게 끌어올린 GEM 을 공개했습니다.

핵심 결론

태스크 — Embodied VLM 의 공간·물리 이해 능력 향상 — 시뮬레이션 및 실제 로봇 조작 벤치마크에서 SOTA.
수치 — 기존 VLM 대비 다양한 embodied 태스크에서 평균 10% 이상 성능 개선 (논문 내 표 참조).

방법

핵심 아이디어 — VLM 사전학습 단계에 depth map 생성이라는 generative objective 를 joint training 으로 추가.
데이터 — GEM-4M: grounding, reasoning, planning 데이터 400만 쌍에 고품질 depth annotation 을 붙인 대규모 데이터셋을 직접 구축 및 공개.
이 방식이 동작하는 이유는 depth map 생성이 low-level spatial knowledge 를 강제하기 때문으로 분석됩니다.

한계·조건

데이터 의존성 — GEM-4M 규모의 depth-annotation 데이터셋을 확보해야 하므로, 다른 도메인으로의 확장에는 추가 비용이 듭니다.
재현성 — 코드, 모델, 데이터셋은 공개 예정이나, depth map 생성 모듈의 학습 안정성에 대한 ablation 이 충분히 제시되지 않았습니다.
실제 로봇 평가는 특정 환경(테이블탑 조작)에 국한되어 있어 일반화 가능성은 더 검증이 필요합니다.

편집자 한 줄

depth map 생성이라는 비교적 단순한 auxiliary task 로 embodied intelligence 가 크게 오른 점은 흥미롭지만, 데이터 구축 비용을 고려하면 실용성은 좀 더 지켜봐야 할 것 같습니다.

#embodied-ai
#vlm
#depth-estimation
#tencent
#robotics

Tencent Hunyuan

원문 보기 →

Tencent Hunyuan, GEM — VLM 에 depth map 생성 태스크를 통합해 로봇 조작 성능 향상

핵심 결론

방법

한계·조건

Comments