← Back to feed
Papers·3일 전

N-GRPO: 의미적 이웃 혼합으로 수학 추론 다양성 확보 — DeepSeek-R1-Distill-Qwen 벤치마크 일관 개선

N-GRPO: 의미적 이웃 혼합으로 수학 추론 다양성 확보 — DeepSeek-R1-Distill-Qwen 벤치마크 일관 개선

N-GRPO는 GRPO 프레임워크 내에서 토큰 수준 샘플링 대신 앵커 토큰과 의미적 최근접 이웃의 임베딩을 혼합하여 다양성을 주입하는 Semantic Neighbor Mixing을 제안합니다. DeepSeek-R1-Distill-Qwen 모델군에서 수학 추론 벤치마크 일관 개선 및 분포 외 태스크 일반화를 보였습니다. 단, 이 방법은 GRPO 기반이므로 기존 PPO 기반 파이프라인에 직접 적용하기는 어렵습니다.

N-GRPO는 GRPO의 rollout 단계에서 의미적 일관성을 유지하며 다양한 해결 경로를 생성하는 새로운 탐색 전략입니다.

핵심 결론

  • 벤치DeepSeek-R1-Distill-Qwen 1.5B/7B/14B/32B에서 수학 추론 벤치마크(MATH, GSM8K 등) 일관 개선, 분포 외 태스크에서도 강건한 일반화.
  • 비교토큰 수준 샘플링 대비 중복 궤적 감소, 임베딩 수준 무작위 노이즈 대비 의미적 일관성 유지.

방법

  • Semantic Neighbor Mixing앵커 토큰의 임베딩과 그 의미적 최근접 이웃들의 임베딩을 혼합하여 입력 표현을 동적으로 구성, 로컬 의미 다양체를 따라 다양성을 주입합니다.
  • GRPO 내에서 rollout 시 적용되며, 별도의 외부 모델이나 복잡한 샘플링 없이 임베딩 공간에서 직접 동작합니다.

한계·조건

  • 프레임워크GRPO 기반이므로 PPO 등 다른 RL 파이프라인에 바로 적용하기는 어렵습니다.
  • 의존성의미적 이웃 계산에 사전 학습된 임베딩 공간이 필요하며, 도메인 특화 태스크에서는 이웃 품질이 성능에 영향을 줄 수 있습니다.
  • 코드논문 내 코드 공개 여부는 확인되지 않았습니다.

편집자 한 줄

GRPO 계열에서 탐색 다양성을 높이는 직관적인 방법이라, 향후 오픈소스 RL 파이프라인에 통합될 가능성이 있어 보입니다.

  • #grpo
  • #math-reasoning
  • #exploration
  • #deepseek
Xukun Zhu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —