← Back to feed
Papers·1주 전

RaPO: 보상 형성으로 강화 파인튜닝의 망각 완화 — 시각 지속 학습에서 GRPO 대비 망각 40% 감소

RaPO: 보상 형성으로 강화 파인튜닝의 망각 완화 — 시각 지속 학습에서 GRPO 대비 망각 40% 감소

중국 연구팀이 시각 지속 학습(continual learning)에서 강화 파인튜닝(RFT)이 여전히 망각(forgetting)을 겪는다는 문제를 지적하고, 이를 완화하는 RaPO(Retention-aware Policy Optimization)를 제안했습니다. 핵심 아이디어는 rollout 간 KL divergence 편차를 보상 신호로 변환하는 'Retention Reward'와 태스크 경계에서 보상 통계를 EMA로 안정화하는 'Cross-Task Advantage Normalization'입니다. 5가지 시각 지속 학습 설정에서 실험한 결과, RaPO는 기존 GRPO 대비 망각을 크게 줄이면서도 학습 능력(plasticity)을 유지했습니다. 단, 이 연구는 MLLM 기반의 자유형 텍스트 일반화에 의존하므로, 다른 모달리티로의 일반화는 추가 검증이 필요합니다.

  • #reinforcement-fine-tuning
  • #continual-learning
  • #catastrophic-forgetting
  • #visual-learning
  • #rapo
Meng Lou

Comments

— 첫 댓글을 남겨보세요 —