Papers·2일 전
RODS: GRPO 훈련 중 정보 샘플 고갈 해결 — 20x 적은 데이터로 동등 성능

inclusionAI 팀이 GRPO 기반 multi-turn tool-use RL에서 정적 데이터셋의 정보 샘플 고갈 문제를 해결하는 RODS를 제안했습니다. 보상 분산을 경계 탐지기로 활용해 정책 경계 부근 샘플을 합성하고 동적 버퍼로 관리, 400개 시드로 17K 샘플 오프라인 파이프라인과 동등한 성능을 내며 20배 적은 궤적을 사용합니다. 단, 실험 환경이 제한적이어서 일반화 가능성은 추가 검증이 필요합니다.
Multi-turn tool-use RL에서 GRPO 훈련 시 정적 데이터셋의 정보 샘플이 빠르게 고갈되는 문제를 해결하는 RODS가 공개되었습니다.
핵심 결론
- 성능 — 400개 인간 시드와 ~800개 활성 샘플로 17K 샘플 오프라인 파이프라인과 동등한 성능, 20배 적은 궤적 사용.
- 관찰 — GRPO의 그래디언트 신호가 rollout reward 분산이 가장 큰 태스크에 집중되는데, 이는 Popoviciu 상한의 결과.
방법
- 경계 탐지 — 정책 경계(성공/실패 균형) 부근 샘플이 불균형적으로 큰 그래디언트를 제공하며, 이 경계는 훈련 중 이동.
- RODS — 보상 분산을 제로-코스트 경계 탐지기로 재사용, 경계 샘플 식별 후 구조적 복잡성(API 토폴로지, 의존성 깊이)을 맞춘 새 multi-turn 변이를 합성.
- 동적 버퍼 — 정책과 함께 진화하는 동적 replay buffer로 정보 샘플 고갈을 방지.
한계·조건
- 환경 — 제어된 실험 환경에서 검증되었으며, 실제 복잡한 tool-use 태스크로의 일반화는 추가 연구 필요.
- 비교 — 고정 데이터 RL 및 환경 증강 대비 우수하지만, 다른 합성 데이터 방법과의 광범위한 비교는 부재.
편집자 한 줄
데이터 효율을 높이는 실용적인 접근이지만, 경계 탐지기의 일반성과 확장성을 더 확인해볼 필요가 있겠네요.
- #grpo
- #tool-use
- #reinforcement-learning
- #data-synthesis
- #inclusionai
inclusionAI