← Back to feed
Papers·2주 전

S2L-PO: 작은 모델로 큰 모델의 GRPO rollout 다양성을 높여 AIME 24에서 +8.8%

S2L-PO: 작은 모델로 큰 모델의 GRPO rollout 다양성을 높여 AIME 24에서 +8.8%

GRPO에서 rollout 다양성을 높이기 위해 작은 모델의 정책 수준 다양성을 활용하는 S2L-PO 프레임워크를 제안했습니다. 작은 모델의 rollout으로 큰 모델을 학습하고 점진적으로 큰 모델의 자기 샘플링으로 전환하는 전략으로, AIME 24에서 1.7B 탐색기로 8B 모델을 유도해 +8.8% 정확도 향상을 달성했습니다. 단, 이 방법은 같은 모델 패밀리 내에서만 적용 가능하며, 작은 모델의 용량 한계를 고려한 annealing 스케줄이 필요합니다.

GRPO의 rollout 다양성을 높이기 위해 작은 모델의 정책 수준 다양성을 활용하는 S2L-PO 프레임워크가 제안되었습니다.

핵심 결론

  • 벤치AIME 24에서 1.7B 탐색기로 8B 모델을 유도해 +8.8% 정확도 향상, MATH-500에서도 +4.2% 개선.
  • 효율rollout compute를 줄이면서도 더 높은 성능 상한을 달성, 수렴 속도도 빨라졌습니다.

방법

  • 핵심 아이디어작은 모델이 큰 모델보다 pass@k가 높고, 정책 수준의 다양성이 temporally correlated되어 일관된 탐색 신호를 제공한다는 점을 발견.
  • S2L-PO고정된 작은 모델을 자연 탐색기로 사용해 큰 모델을 학습, 점진적으로 큰 모델의 자기 샘플링으로 전환하는 annealing 전략.
  • 이 전환은 작은 모델의 용량 한계로 인한 중간 성능 하락을 피하고, 더 높은 성능 상한을 열어줍니다.

한계·조건

  • 적용 범위같은 모델 패밀리 내에서만 작은 모델의 다양성이 유효하며, 다른 패밀리 간 일반화는 검증되지 않았습니다.
  • 리소스작은 모델의 rollout을 저장할 추가 메모리가 필요하지만, 전체 compute는 감소합니다.
  • 코드논문에서 코드 공개 예정은 명시되지 않았습니다.

편집자 한 줄

작은 모델의 정책 다양성을 활용한다는 직관은 단순하지만, annealing 전략이 실제 학습 안정성에 큰 영향을 줄 것으로 보입니다.

  • #grpo
  • #llm
  • #reinforcement-learning
  • #diversity
  • #small-to-large
Yiming Ren
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —