Papers·1개월 전

RaPO: 보상 형성으로 강화 파인튜닝의 망각 완화 — 시각 지속 학습에서 GRPO 대비 망각 40% 감소

중국 연구팀이 시각 지속 학습(continual learning)에서 강화 파인튜닝(RFT)이 여전히 망각(forgetting)을 겪는다는 문제를 지적하고, 이를 완화하는 RaPO(Retention-aware Policy Optimization)를 제안했습니다. 핵심 아이디어는 rollout 간 KL divergence 편차를 보상 신호로 변환하는 'Retention Reward'와 태스크 경계에서 보상 통계를 EMA로 안정화하는 'Cross-Task Advantage Normalization'입니다. 5가지 시각 지속 학습 설정에서 실험한 결과, RaPO는 기존 GRPO 대비 망각을 크게 줄이면서도 학습 능력(plasticity)을 유지했습니다. 단, 이 연구는 MLLM 기반의 자유형 텍스트 일반화에 의존하므로, 다른 모달리티로의 일반화는 추가 검증이 필요합니다.

#reinforcement-fine-tuning
#continual-learning
#catastrophic-forgetting
#visual-learning
#rapo

Meng Lou

원문 보기 →

RaPO: 보상 형성으로 강화 파인튜닝의 망각 완화 — 시각 지속 학습에서 GRPO 대비 망각 40% 감소

Comments