Papers·2일 전
CUHK, 인간 egocentric 영상으로 로봇 행동 학습 — ACE-EGO-0, RoboCasa/ RoboTwin SOTA

CUHK 팀이 인간 egocentric 영상 1.48K 시간을 로봇 pseudo-action 궤적으로 변환해 VLA 모델을 공동 학습하는 ACE-EGO-0 프레임워크를 발표했습니다. 카메라-공간 행동 표현, 형태 조건화, 시간 정렬 액션 청킹으로 인간-로봇 행동 공간 차이를 줄이고, 신뢰도 기반 가중치로 노이즈 있는 pseudo-action을 효과적으로 활용한 점이 핵심입니다. RoboCasa GR1 TableTop과 RoboTwin 2.0에서 SOTA를 달성했으며, 실제 이족 매니퓰레이션으로의 전이도 확인했습니다.
CUHK 연구진이 인간 egocentric 영상에서 로봇 행동을 학습하는 통합 VLA 사전학습 프레임워크 ACE-EGO-0를 공개했습니다.
핵심 결론
- 벤치 — RoboCasa GR1 TableTop과 RoboTwin 2.0에서 SOTA 달성, 실제 이족 매니퓰레이션으로 전이 성공.
- 데이터 — 로봇+시뮬레이션 4.53K 시간, 인간 egocentric 영상 1.48K 시간 (pseudo-action 레이블) 사용.
방법
- 파이프라인 — 원시 egocentric 영상을 로봇-형식 pseudo-action 궤적으로 변환하는 확장 가능한 파이프라인 구축.
- 표현 — 카메라-공간 행동, 형태 조건화, 시간 정렬 액션 청킹으로 인간-로봇 행동 공간 차이를 줄임.
- 학습 — 신뢰도 기반 가중치와 인간 보조 손실로 노이즈 있는 pseudo-action에서 신호만 집중 학습.
한계·조건
- 데이터 — egocentric 영상의 pseudo-action 레이블은 완전 자동 생성되며, 일부 노이즈가 남아 있음.
- 환경 — 실험은 특정 태스크(테이블탑, 이족)에 국한, 일반화 범위는 추가 검증 필요.
- 코드 — 현재 Hugging Face 논문으로 공개, 코드 및 데이터 공개 여부는 미정.
편집자 한 줄
인간 영상 데이터를 로봇 학습에 활용하는 접근은 데이터 효율성 측면에서 매력적이지만, pseudo-action의 품질이 성능에 큰 영향을 미칠 것으로 보입니다.
- #vla
- #pretraining
- #egocentric-video
- #robot-manipulation
- #cuhk
CUHK