Papers·1개월 전

DVAO: 다중 보상 RL 정렬을 위한 동적 분산 적응 어드밴티지 최적화

Qwen3/Qwen2.5 기반 수학 추론 및 도구 사용 벤치마크에서 다중 보상 RL 정렬 시 기존 Reward Combination 및 Advantage Combination 대비 우수한 Pareto frontier와 학습 안정성을 달성한 DVAO를 제안합니다. DVAO는 롤아웃 그룹 내 각 목표의 경험적 보상 분산에 따라 결합 가중치를 동적으로 조정하여 강한 학습 신호는 강화하고 잡음은 억제하며, 수학적으로 어드밴티지 크기가 유계임을 증명합니다. 단, 실험은 특정 모델과 벤치마크에 국한되며, 다른 도메인으로의 일반화는 추가 검증이 필요합니다.

#reinforcement-learning
#rlhf
#multi-objective
#qwen
#alignment

Guochao Jiang

원문 보기 →

DVAO: 다중 보상 RL 정렬을 위한 동적 분산 적응 어드밴티지 최적화

Comments