Papers·1개월 전

GD²PO: 다중 보상 충돌 해결하는 RL 정책 최적화 — tool calling 정확도 12% 향상

Qwen 팀이 다중 보상 RL에서 발생하는 보상 간 충돌을 해결하는 GD²PO를 제안했습니다. 기존 GDPO가 보상 그룹별로 독립 계산해도 충돌 신호가 상쇄되는 문제를, 충돌 인식 필터링과 쿼리 수준 재가중치로 해결합니다. Tool calling 태스크에서 기존 대비 정확도 12% 향상, 인간 선호 정렬에서도 일관된 개선을 보였습니다.

Qwen 팀이 다중 보상 RL에서 보상 간 충돌을 해결하는 GD²PO를 공개했습니다. 기존 GDPO의 한계를 보완해 tool calling 정확도 12% 향상.

핵심 결론

태스크 — 다중 보상 RL (tool calling, 인간 선호 정렬)에서 기존 GDPO 대비 일관된 성능 향상.
수치 — Tool calling 정확도 12% 향상, 선호 정렬 reward score 8% 개선.

방법

충돌 인식 필터링 — 보상 그룹 간 장점 부호가 다른 rollout을 마스킹해 상쇄를 방지합니다.
쿼리 수준 재가중치 — 각 쿼리의 보상 합의도에 따라 업데이트 강도를 동적으로 조절합니다.
DAPO의 제로 장점 필터링 아이디어를 확장한 점이 흥미로운 포인트네요.

한계·조건

벤치 — Tool calling과 선호 정렬 두 시나리오에서만 검증되었습니다.
코드 — GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

다중 보상 충돌은 실무에서 자주 마주치는 문제인데, 간단한 마스킹 전략으로 효과를 본 점이 인상적입니다.

#reinforcement-learning
#multi-reward
#qwen
#alignment
#tool-calling

Haotian Liu

원문 보기 →

GD²PO: 다중 보상 충돌 해결하는 RL 정책 최적화 — tool calling 정확도 12% 향상

핵심 결론

방법

한계·조건

Comments