Papers·3일 전
N-GRPO: 의미적 이웃 혼합으로 수학 추론 다양성 확보 — DeepSeek-R1-Distill-Qwen 벤치마크 일관 개선

N-GRPO는 GRPO 프레임워크 내에서 토큰 수준 샘플링 대신 앵커 토큰과 의미적 최근접 이웃의 임베딩을 혼합하여 다양성을 주입하는 Semantic Neighbor Mixing을 제안합니다. DeepSeek-R1-Distill-Qwen 모델군에서 수학 추론 벤치마크 일관 개선 및 분포 외 태스크 일반화를 보였습니다. 단, 이 방법은 GRPO 기반이므로 기존 PPO 기반 파이프라인에 직접 적용하기는 어렵습니다.
N-GRPO는 GRPO의 rollout 단계에서 의미적 일관성을 유지하며 다양한 해결 경로를 생성하는 새로운 탐색 전략입니다.
핵심 결론
- 벤치 — DeepSeek-R1-Distill-Qwen 1.5B/7B/14B/32B에서 수학 추론 벤치마크(MATH, GSM8K 등) 일관 개선, 분포 외 태스크에서도 강건한 일반화.
- 비교 — 토큰 수준 샘플링 대비 중복 궤적 감소, 임베딩 수준 무작위 노이즈 대비 의미적 일관성 유지.
방법
- Semantic Neighbor Mixing — 앵커 토큰의 임베딩과 그 의미적 최근접 이웃들의 임베딩을 혼합하여 입력 표현을 동적으로 구성, 로컬 의미 다양체를 따라 다양성을 주입합니다.
- GRPO 내에서 rollout 시 적용되며, 별도의 외부 모델이나 복잡한 샘플링 없이 임베딩 공간에서 직접 동작합니다.
한계·조건
- 프레임워크 — GRPO 기반이므로 PPO 등 다른 RL 파이프라인에 바로 적용하기는 어렵습니다.
- 의존성 — 의미적 이웃 계산에 사전 학습된 임베딩 공간이 필요하며, 도메인 특화 태스크에서는 이웃 품질이 성능에 영향을 줄 수 있습니다.
- 코드 — 논문 내 코드 공개 여부는 확인되지 않았습니다.
편집자 한 줄
GRPO 계열에서 탐색 다양성을 높이는 직관적인 방법이라, 향후 오픈소스 RL 파이프라인에 통합될 가능성이 있어 보입니다.
- #grpo
- #math-reasoning
- #exploration
- #deepseek
Xukun Zhu