Papers·4주 전
LLM 강화학습 후학습에서 rollout 설계의 체계적 분류 — GFCR 수명주기와 4단계 모듈

McAuley-Lab의 이 서베이는 LLM의 추론 능력 향상을 위한 RL 후학습에서 rollout 파이프라인 설계를 optimizer에 무관하게 분석합니다. Generate-Filter-Control-Replay(GFCR) 수명주기 분류법을 제안해 Generate(궤적 생성), Filter(중간 신호 구성), Control(계산 할당 및 중단/분기 결정), Replay(과거 rollout 재사용)의 4단계로 모듈화했습니다. 신뢰성, 커버리지, 비용 민감도 기준으로 트레이드오프를 정리하고, 수학/코드/SQL/멀티모달/에이전트 태스크 사례 연구와 일반적인 rollout 문제점 진단 인덱스를 제공합니다.
- #reinforcement-learning
- #llm
- #rollout
- #survey
- #mcallab
McAuley-Lab