← Back to feed
Papers·2일 전

CUHK, 인간 egocentric 영상으로 로봇 행동 학습 — ACE-EGO-0, RoboCasa/ RoboTwin SOTA

CUHK, 인간 egocentric 영상으로 로봇 행동 학습 — ACE-EGO-0, RoboCasa/ RoboTwin SOTA

CUHK 팀이 인간 egocentric 영상 1.48K 시간을 로봇 pseudo-action 궤적으로 변환해 VLA 모델을 공동 학습하는 ACE-EGO-0 프레임워크를 발표했습니다. 카메라-공간 행동 표현, 형태 조건화, 시간 정렬 액션 청킹으로 인간-로봇 행동 공간 차이를 줄이고, 신뢰도 기반 가중치로 노이즈 있는 pseudo-action을 효과적으로 활용한 점이 핵심입니다. RoboCasa GR1 TableTop과 RoboTwin 2.0에서 SOTA를 달성했으며, 실제 이족 매니퓰레이션으로의 전이도 확인했습니다.

CUHK 연구진이 인간 egocentric 영상에서 로봇 행동을 학습하는 통합 VLA 사전학습 프레임워크 ACE-EGO-0를 공개했습니다.

핵심 결론

  • 벤치RoboCasa GR1 TableTop과 RoboTwin 2.0에서 SOTA 달성, 실제 이족 매니퓰레이션으로 전이 성공.
  • 데이터로봇+시뮬레이션 4.53K 시간, 인간 egocentric 영상 1.48K 시간 (pseudo-action 레이블) 사용.

방법

  • 파이프라인원시 egocentric 영상을 로봇-형식 pseudo-action 궤적으로 변환하는 확장 가능한 파이프라인 구축.
  • 표현카메라-공간 행동, 형태 조건화, 시간 정렬 액션 청킹으로 인간-로봇 행동 공간 차이를 줄임.
  • 학습신뢰도 기반 가중치와 인간 보조 손실로 노이즈 있는 pseudo-action에서 신호만 집중 학습.

한계·조건

  • 데이터egocentric 영상의 pseudo-action 레이블은 완전 자동 생성되며, 일부 노이즈가 남아 있음.
  • 환경실험은 특정 태스크(테이블탑, 이족)에 국한, 일반화 범위는 추가 검증 필요.
  • 코드현재 Hugging Face 논문으로 공개, 코드 및 데이터 공개 여부는 미정.

편집자 한 줄

인간 영상 데이터를 로봇 학습에 활용하는 접근은 데이터 효율성 측면에서 매력적이지만, pseudo-action의 품질이 성능에 큰 영향을 미칠 것으로 보입니다.

  • #vla
  • #pretraining
  • #egocentric-video
  • #robot-manipulation
  • #cuhk
CUHK
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —