Papers·2일 전

LoPE: Lorem Ipsum 섞어 GRPO 탐색 문제 해결 — 7B 모델 추론 성능 12% 향상

GRPO 기반 강화학습에서 모든 샘플이 실패할 때 훈련 신호가 사라지는 'zero-advantage 문제'를 해결하기 위해, 프롬프트에 Lorem Ipsum 같은 무의미한 텍스트를 섞어 재샘플링하는 LoPE를 제안했습니다. 1.7B~7B 모델 실험에서 원래 프롬프트 재샘플링보다 일관되게 높은 성능을 보였으며, 낮은 perplexity의 라틴 기반 무작위 시퀀스도 효과적이었습니다. 단, 이 방법은 추가적인 샘플링 비용이 들며, perturbation의 최적 강도는 태스크에 따라 달라질 수 있습니다.

#reinforcement-learning
#grpo
#exploration
#lope
#llm

Langlin Huang

원문 보기 →

LoPE: Lorem Ipsum 섞어 GRPO 탐색 문제 해결 — 7B 모델 추론 성능 12% 향상

Comments