Papers·1개월 전

EnergyFlow: 스코어 기반 생성 모델과 역강화학습 통합 — 조작 과제 모방 성능 SOTA

EnergyFlow는 생성적 행동 모델링과 역강화학습(IRL)을 통합하는 프레임워크로, 에너지 함수의 그래디언트를 denoising field로 활용합니다. 최대 엔트로피 최적성 아래에서 denoising score matching으로 학습한 스코어 함수가 전문가의 soft Q-함수 그래디언트를 복원함을 증명하고, adversarial 학습 없이 보상 추출이 가능함을 보였습니다. 보존적(constructive) 필드 제약이 가설 복잡도를 줄이고 분포 외 일반화 경계를 강화하며, 회수된 보상의 식별 가능성과 오차 전파를 분석했습니다. 다양한 조작 과제에서 모방 성능이 SOTA를 달성했고, 추출된 보상 신호는 하류 강화학습에서 adversarial IRL 및 우도 기반 방법보다 우수했습니다. 코드 공개.

#imitation-learning
#inverse-reinforcement-learning
#score-based-models
#energyflow
#robotics

Yanbiao Ji

원문 보기 →

EnergyFlow: 스코어 기반 생성 모델과 역강화학습 통합 — 조작 과제 모방 성능 SOTA

Comments