Papers·1개월 전

LWD: 오프라인-온라인 RL로 로봇 정책 지속 학습 — 16대 로봇 fleet에서 평균 성공률 95%

Learning While Deploying (LWD)는 사전학습된 VLA 정책을 실제 배포 중에도 지속적으로 개선하는 fleet-scale RL 프레임워크입니다. 자율 롤아웃과 인간 개입 데이터를 활용하며, Distributional Implicit Value Learning (DIVL)과 Q-learning via Adjoint Matching (QAM)으로 sparse reward 문제를 안정화합니다. 16대 듀얼암 로봇, 8가지 실제 작업에서 평균 성공률 95%를 달성했으며, 특히 장기 과제에서 큰 개선을 보였습니다. 단, fleet 환경과 충분한 컴퓨팅 자원이 전제됩니다.

#vla
#reinforcement-learning
#robot-learning
#offline-to-online
#fleet

Yi Wang

원문 보기 →

LWD: 오프라인-온라인 RL로 로봇 정책 지속 학습 — 16대 로봇 fleet에서 평균 성공률 95%

Comments