← Back to feed
Papers·3일 전

LWD: 오프라인-온라인 RL로 로봇 정책 지속 학습 — 16대 로봇 fleet에서 평균 성공률 95%

LWD: 오프라인-온라인 RL로 로봇 정책 지속 학습 — 16대 로봇 fleet에서 평균 성공률 95%

Learning While Deploying (LWD)는 사전학습된 VLA 정책을 실제 배포 중에도 지속적으로 개선하는 fleet-scale RL 프레임워크입니다. 자율 롤아웃과 인간 개입 데이터를 활용하며, Distributional Implicit Value Learning (DIVL)과 Q-learning via Adjoint Matching (QAM)으로 sparse reward 문제를 안정화합니다. 16대 듀얼암 로봇, 8가지 실제 작업에서 평균 성공률 95%를 달성했으며, 특히 장기 과제에서 큰 개선을 보였습니다. 단, fleet 환경과 충분한 컴퓨팅 자원이 전제됩니다.

Yi Wang

Comments

— 첫 댓글을 남겨보세요 —