Papers·1개월 전

N-GRPO: 의미적 이웃 혼합으로 수학 추론 다양성 확보 — DeepSeek-R1-Distill-Qwen 벤치마크 일관 개선

N-GRPO는 GRPO 프레임워크 내에서 토큰 수준 샘플링 대신 앵커 토큰과 의미적 최근접 이웃의 임베딩을 혼합하여 다양성을 주입하는 Semantic Neighbor Mixing을 제안합니다. DeepSeek-R1-Distill-Qwen 모델군에서 수학 추론 벤치마크 일관 개선 및 분포 외 태스크 일반화를 보였습니다. 단, 이 방법은 GRPO 기반이므로 기존 PPO 기반 파이프라인에 직접 적용하기는 어렵습니다.

N-GRPO는 GRPO의 rollout 단계에서 의미적 일관성을 유지하며 다양한 해결 경로를 생성하는 새로운 탐색 전략입니다.

핵심 결론

벤치 — DeepSeek-R1-Distill-Qwen 1.5B/7B/14B/32B에서 수학 추론 벤치마크(MATH, GSM8K 등) 일관 개선, 분포 외 태스크에서도 강건한 일반화.
비교 — 토큰 수준 샘플링 대비 중복 궤적 감소, 임베딩 수준 무작위 노이즈 대비 의미적 일관성 유지.

방법

Semantic Neighbor Mixing — 앵커 토큰의 임베딩과 그 의미적 최근접 이웃들의 임베딩을 혼합하여 입력 표현을 동적으로 구성, 로컬 의미 다양체를 따라 다양성을 주입합니다.
GRPO 내에서 rollout 시 적용되며, 별도의 외부 모델이나 복잡한 샘플링 없이 임베딩 공간에서 직접 동작합니다.

한계·조건

프레임워크 — GRPO 기반이므로 PPO 등 다른 RL 파이프라인에 바로 적용하기는 어렵습니다.
의존성 — 의미적 이웃 계산에 사전 학습된 임베딩 공간이 필요하며, 도메인 특화 태스크에서는 이웃 품질이 성능에 영향을 줄 수 있습니다.
코드 — 논문 내 코드 공개 여부는 확인되지 않았습니다.

편집자 한 줄

GRPO 계열에서 탐색 다양성을 높이는 직관적인 방법이라, 향후 오픈소스 RL 파이프라인에 통합될 가능성이 있어 보입니다.

#grpo
#math-reasoning
#exploration
#deepseek

Xukun Zhu

원문 보기 →

N-GRPO: 의미적 이웃 혼합으로 수학 추론 다양성 확보 — DeepSeek-R1-Distill-Qwen 벤치마크 일관 개선

핵심 결론

방법

한계·조건

Comments