← Back to feed
Papers·6일 전

Tencent Hunyuan, VLM 하나로 고해상도 깊이맵 예측 — DepthVLM, 기존 VLM 대비 추론 효율 2배 이상

Tencent Hunyuan, VLM 하나로 고해상도 깊이맵 예측 — DepthVLM, 기존 VLM 대비 추론 효율 2배 이상

Tencent Hunyuan 팀이 VLM에 경량 depth head를 붙여 텍스트와 함께 full-resolution 깊이맵을 단일 forward pass로 출력하는 DepthVLM을 공개했습니다. 기존 VLM 대비 추론 효율이 크게 높고, 실내외 통합 metric depth 벤치마크에서 SOTA pure vision 모델을 능가했습니다. 다만 두 단계 학습 스케줄이 필요하고, 코드 공개 예정이나 현재는 미공개입니다.

  • #depth-estimation
  • #vision-language-model
  • #tencent
  • #3d-understanding
  • #metric-depth
Tencent Hunyuan

Comments

— 첫 댓글을 남겨보세요 —