Papers·6일 전
RL4IL: 강화학습으로 센서 드롭아웃에 강한 모방학습 — LIBERO 3개 벤치에서 SOTA

Hassan Ismkhan 팀이 센서 드롭아웃 상황에서도 강건한 모방학습 프레임워크 RL4IL을 제안했습니다. PPO로 학습된 RL 정책이 BFS 후보 집합 중 최적의 전문가 데모를 선택하고, soft cross-attention fusion head로 최종 행동을 예측합니다. 결측 모달리티 발생 시 별도 RL 검색 정책이 훈련 라이브러리에서 donor 데모를 찾아 임베딩을 재구성하며, 재훈련이 필요 없습니다. LIBERO 3개 벤치에서 기존 SOTA 대비 큰 폭의 성능 향상을 보였지만, 실험은 시뮬레이션 환경에 국한되었습니다.
RL4IL은 센서 고장이나 폐색으로 인한 입력 모달리티 결손을 강화학습 기반 검색으로 극복하는 모방학습 방법입니다.
핵심 결론
- 벤치 — LIBERO-10, LIBERO-Object, LIBERO-Goal 세 벤치에서 센서 드롭아웃 조건 하 기존 모방학습 대비 성능 우위.
- 재훈련 불필요 — 결측 모달리티 발생 시에도 시스템 재훈련 없이 donor 데모 검색으로 대응 가능합니다.
방법
- RL 검색 정책 — PPO로 학습된 정책이 BFS로 생성된 후보 데모 집합에서 최적의 전문가 데모를 순위화합니다.
- soft cross-attention fusion — 선택된 데모들의 행동 신호를 cross-attention으로 집계해 최종 예측을 생성합니다.
- 결측 모달리티 처리 — 모달리티별 RL 검색 정책이 훈련 라이브러리에서 donor 데모를 찾고, soft imputation head가 cross-attention으로 결측 임베딩을 재구성합니다.
한계·조건
- 환경 — 모든 실험은 LIBERO 시뮬레이터에서 수행되었으며, 실제 로봇 환경에서의 검증은 아직입니다.
- 코드 — GitHub에 코드 공개되어 있습니다.
편집자 한 줄
재훈련 없이 결측 모달리티에 대응할 수 있다는 점은 실제 배포에서 큰 장점이지만, 시뮬레이션 결과가 현실에서도 유효할지는 추가 검증이 필요합니다.
- #reinforcement-learning
- #imitation-learning
- #robotics
- #missing-modality
- #libero
Hassan Ismkhan