Papers·2일 전
ScaleLogic: RL 기반 LLM 추론 훈련, 과제 난이도에 따른 스케일링 법칙 발견

Tianle Wang 팀이 제안한 ScaleLogic 프레임워크로, RL 훈련 계산량 T가 추론 깊이 D에 대해 멱법칙(T ∝ D^γ, R²>0.99)을 따르며, 지수 γ는 논리 표현력에 따라 1.04에서 2.60까지 단조 증가함을 보였습니다. 수학 및 일반 추론 벤치마크에서 더 표현력 있는 훈련 설정이 최대 +10.66점의 성능 향상을 가져왔으며, 전이 효율도 높았습니다. 단, 합성 환경 기반이며 실제 복잡한 추론으로의 일반화는 추가 검증이 필요합니다.
- #reinforcement-learning
- #llm-reasoning
- #scaling-laws
- #synthetic-benchmark
Tianle Wang