hypes.news
← Back to feed
Papers·6일 전

UniT: Unified Latent Action Tokenizer for Human-to-Humanoid Transfer via Visual Anchoring

UniT: Unified Latent Action Tokenizer for Human-to-Humanoid Transfer via Visual Anchoring

UniT는 인간과 휴머노이드 간의 운동학적 차이를 극복하기 위해 시각적 앵커링을 통해 통합된 잠재 행동 토큰을 학습하는 프레임워크다. 세 가지 분기(행동→비전, 비전→행동, 융합)를 사용하여 체형에 무관한 물리적 의도를 이산 잠재 공간에 인코딩한다. VLA-UniT는 정책 학습에서 인간 데이터를 활용해 SOTA 데이터 효율성과 OOD 일반화를 달성했으며, WM-UniT는 세계 모델링에서 인간-휴머노이드 행동 전이를 가능하게 했다. t-SNE 시각화는 인간과 휴머노이드 특징이 공유 매니폴드로 수렴함을 확인했다.

xpeng-robotics

Comments

— 첫 댓글을 남겨보세요 —