Papers·어제
RoboEvolve: VLM-VGM 공진화로 로봇 조작 데이터 부족 해결 — 500장 무레이블 이미지로 50x 데이터 효율
로봇 조작의 확장성을 제한하는 물리적 상호작용 데이터 부족 문제를 해결하기 위해, VLM(Vision-Language Model) 플래너와 VGM(Video Generation Model) 시뮬레이터를 상호 강화하는 공진화 프레임워크 RoboEvolve가 제안되었습니다. 주간 탐색 단계에서는 의미론적 제어 다중 세분화 보상으로 물리적 기반 행동을 발견하고, 야간 통합 단계에서는 '근접 실패' 사례를 활용해 정책을 안정화합니다. 자율적 점진적 커리큘럼을 통해 단순 동작에서 복잡한 작업으로 확장되며, 베이스 플래너 대비 30%p 향상, 시뮬레이터 성공률 48% 향상, 500장의 무레이블 이미지만으로 완전 지도 학습을 능가하는 50배 데이터 효율을 달성했습니다. 단, 실험은 시뮬레이션 환경에 국한되었으며, 실제 로봇 적용 시 추가 검증이 필요합니다.
- #robotics
- #manipulation
- #vlm
- #vgm
- #co-evolution
Harold Haodong Chen