← Back to feed
Papers·2일 전

GD²PO: 다중 보상 충돌 해결하는 RL 정책 최적화 — tool calling 정확도 12% 향상

GD²PO: 다중 보상 충돌 해결하는 RL 정책 최적화 — tool calling 정확도 12% 향상

Qwen 팀이 다중 보상 RL에서 발생하는 보상 간 충돌을 해결하는 GD²PO를 제안했습니다. 기존 GDPO가 보상 그룹별로 독립 계산해도 충돌 신호가 상쇄되는 문제를, 충돌 인식 필터링과 쿼리 수준 재가중치로 해결합니다. Tool calling 태스크에서 기존 대비 정확도 12% 향상, 인간 선호 정렬에서도 일관된 개선을 보였습니다.

Qwen 팀이 다중 보상 RL에서 보상 간 충돌을 해결하는 GD²PO를 공개했습니다. 기존 GDPO의 한계를 보완해 tool calling 정확도 12% 향상.

핵심 결론

  • 태스크다중 보상 RL (tool calling, 인간 선호 정렬)에서 기존 GDPO 대비 일관된 성능 향상.
  • 수치Tool calling 정확도 12% 향상, 선호 정렬 reward score 8% 개선.

방법

  • 충돌 인식 필터링보상 그룹 간 장점 부호가 다른 rollout을 마스킹해 상쇄를 방지합니다.
  • 쿼리 수준 재가중치각 쿼리의 보상 합의도에 따라 업데이트 강도를 동적으로 조절합니다.
  • DAPO의 제로 장점 필터링 아이디어를 확장한 점이 흥미로운 포인트네요.

한계·조건

  • 벤치Tool calling과 선호 정렬 두 시나리오에서만 검증되었습니다.
  • 코드GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

다중 보상 충돌은 실무에서 자주 마주치는 문제인데, 간단한 마스킹 전략으로 효과를 본 점이 인상적입니다.

  • #reinforcement-learning
  • #multi-reward
  • #qwen
  • #alignment
  • #tool-calling
Haotian Liu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —