Papers·1개월 전

RL4IL: 강화학습으로 센서 드롭아웃에 강한 모방학습 — LIBERO 3개 벤치에서 SOTA

Hassan Ismkhan 팀이 센서 드롭아웃 상황에서도 강건한 모방학습 프레임워크 RL4IL을 제안했습니다. PPO로 학습된 RL 정책이 BFS 후보 집합 중 최적의 전문가 데모를 선택하고, soft cross-attention fusion head로 최종 행동을 예측합니다. 결측 모달리티 발생 시 별도 RL 검색 정책이 훈련 라이브러리에서 donor 데모를 찾아 임베딩을 재구성하며, 재훈련이 필요 없습니다. LIBERO 3개 벤치에서 기존 SOTA 대비 큰 폭의 성능 향상을 보였지만, 실험은 시뮬레이션 환경에 국한되었습니다.

RL4IL은 센서 고장이나 폐색으로 인한 입력 모달리티 결손을 강화학습 기반 검색으로 극복하는 모방학습 방법입니다.

핵심 결론

벤치 — LIBERO-10, LIBERO-Object, LIBERO-Goal 세 벤치에서 센서 드롭아웃 조건 하 기존 모방학습 대비 성능 우위.
재훈련 불필요 — 결측 모달리티 발생 시에도 시스템 재훈련 없이 donor 데모 검색으로 대응 가능합니다.

방법

RL 검색 정책 — PPO로 학습된 정책이 BFS로 생성된 후보 데모 집합에서 최적의 전문가 데모를 순위화합니다.
soft cross-attention fusion — 선택된 데모들의 행동 신호를 cross-attention으로 집계해 최종 예측을 생성합니다.
결측 모달리티 처리 — 모달리티별 RL 검색 정책이 훈련 라이브러리에서 donor 데모를 찾고, soft imputation head가 cross-attention으로 결측 임베딩을 재구성합니다.

한계·조건

환경 — 모든 실험은 LIBERO 시뮬레이터에서 수행되었으며, 실제 로봇 환경에서의 검증은 아직입니다.
코드 — GitHub에 코드 공개되어 있습니다.

편집자 한 줄

재훈련 없이 결측 모달리티에 대응할 수 있다는 점은 실제 배포에서 큰 장점이지만, 시뮬레이션 결과가 현실에서도 유효할지는 추가 검증이 필요합니다.

#reinforcement-learning
#imitation-learning
#robotics
#missing-modality
#libero

Hassan Ismkhan

원문 보기 →

RL4IL: 강화학습으로 센서 드롭아웃에 강한 모방학습 — LIBERO 3개 벤치에서 SOTA

핵심 결론

방법

한계·조건

Comments