Papers·2일 전
GD²PO: 다중 보상 충돌 해결하는 RL 정책 최적화 — tool calling 정확도 12% 향상

Qwen 팀이 다중 보상 RL에서 발생하는 보상 간 충돌을 해결하는 GD²PO를 제안했습니다. 기존 GDPO가 보상 그룹별로 독립 계산해도 충돌 신호가 상쇄되는 문제를, 충돌 인식 필터링과 쿼리 수준 재가중치로 해결합니다. Tool calling 태스크에서 기존 대비 정확도 12% 향상, 인간 선호 정렬에서도 일관된 개선을 보였습니다.
Qwen 팀이 다중 보상 RL에서 보상 간 충돌을 해결하는 GD²PO를 공개했습니다. 기존 GDPO의 한계를 보완해 tool calling 정확도 12% 향상.
핵심 결론
- 태스크 — 다중 보상 RL (tool calling, 인간 선호 정렬)에서 기존 GDPO 대비 일관된 성능 향상.
- 수치 — Tool calling 정확도 12% 향상, 선호 정렬 reward score 8% 개선.
방법
- 충돌 인식 필터링 — 보상 그룹 간 장점 부호가 다른 rollout을 마스킹해 상쇄를 방지합니다.
- 쿼리 수준 재가중치 — 각 쿼리의 보상 합의도에 따라 업데이트 강도를 동적으로 조절합니다.
- DAPO의 제로 장점 필터링 아이디어를 확장한 점이 흥미로운 포인트네요.
한계·조건
- 벤치 — Tool calling과 선호 정렬 두 시나리오에서만 검증되었습니다.
- 코드 — GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
다중 보상 충돌은 실무에서 자주 마주치는 문제인데, 간단한 마스킹 전략으로 효과를 본 점이 인상적입니다.
- #reinforcement-learning
- #multi-reward
- #qwen
- #alignment
- #tool-calling
Haotian Liu