Papers·2개월 전

S2L-PO: 작은 모델로 큰 모델의 GRPO rollout 다양성을 높여 AIME 24에서 +8.8%

GRPO에서 rollout 다양성을 높이기 위해 작은 모델의 정책 수준 다양성을 활용하는 S2L-PO 프레임워크를 제안했습니다. 작은 모델의 rollout으로 큰 모델을 학습하고 점진적으로 큰 모델의 자기 샘플링으로 전환하는 전략으로, AIME 24에서 1.7B 탐색기로 8B 모델을 유도해 +8.8% 정확도 향상을 달성했습니다. 단, 이 방법은 같은 모델 패밀리 내에서만 적용 가능하며, 작은 모델의 용량 한계를 고려한 annealing 스케줄이 필요합니다.

GRPO의 rollout 다양성을 높이기 위해 작은 모델의 정책 수준 다양성을 활용하는 S2L-PO 프레임워크가 제안되었습니다.

핵심 결론

벤치 — AIME 24에서 1.7B 탐색기로 8B 모델을 유도해 +8.8% 정확도 향상, MATH-500에서도 +4.2% 개선.
효율 — rollout compute를 줄이면서도 더 높은 성능 상한을 달성, 수렴 속도도 빨라졌습니다.

방법

핵심 아이디어 — 작은 모델이 큰 모델보다 pass@k가 높고, 정책 수준의 다양성이 temporally correlated되어 일관된 탐색 신호를 제공한다는 점을 발견.
S2L-PO — 고정된 작은 모델을 자연 탐색기로 사용해 큰 모델을 학습, 점진적으로 큰 모델의 자기 샘플링으로 전환하는 annealing 전략.
이 전환은 작은 모델의 용량 한계로 인한 중간 성능 하락을 피하고, 더 높은 성능 상한을 열어줍니다.

한계·조건

적용 범위 — 같은 모델 패밀리 내에서만 작은 모델의 다양성이 유효하며, 다른 패밀리 간 일반화는 검증되지 않았습니다.
리소스 — 작은 모델의 rollout을 저장할 추가 메모리가 필요하지만, 전체 compute는 감소합니다.
코드 — 논문에서 코드 공개 예정은 명시되지 않았습니다.

편집자 한 줄

작은 모델의 정책 다양성을 활용한다는 직관은 단순하지만, annealing 전략이 실제 학습 안정성에 큰 영향을 줄 것으로 보입니다.

#grpo
#llm
#reinforcement-learning
#diversity
#small-to-large

Yiming Ren

원문 보기 →

S2L-PO: 작은 모델로 큰 모델의 GRPO rollout 다양성을 높여 AIME 24에서 +8.8%

핵심 결론

방법

한계·조건

Comments