Papers·어제
RL 기반 적응형 샘플링 — 테스트 타임 스케일링의 비용-정확도 트레이드오프 최적화

Runpeng Dai 팀이 테스트 타임 스케일링에서 샘플링 중단 시점을 강화학습으로 학습하는 경량 컨트롤러를 제안했습니다. MDP로 문제를 정식화하고, 정답 정확도·지연 시간·연산 비용을 동시에 최적화합니다. CPU에서 훈련 및 추론 가능하며, ASC·ESC 같은 기법 대비 샘플 수와 정확도 간 균형이 개선되었습니다. 단, 벤치마크가 특정 추론 태스크에 국한되어 일반화 가능성은 추가 검증이 필요합니다.
테스트 타임 스케일링의 비용 문제를 해결하기 위해, 샘플링 중단 시점을 강화학습으로 학습하는 경량 컨트롤러가 제안되었습니다.
핵심 결론
- 태스크 — LLM 추론에서 테스트 타임 스케일링의 샘플링 비용 최적화.
- 수치 — ASC, ESC 대비 동일 정확도에서 샘플 수 최대 30% 감소.
- 방식 — 정답 통계만으로 동작하는 RL 컨트롤러로, CPU에서 훈련·추론 가능.
방법
- MDP 정식화 — 각 라운드에서 컨트롤러가 중단 또는 추가 샘플링을 결정하는 MDP로 문제를 모델링.
- 보상 설계 — 정답 정확도, 지연 시간, 연산 비용을 결합한 보상 함수로 RL 훈련.
- 해석 — 이 프레임워크는 예산 제약이 있는 constrained optimization의 Lagrangian relaxation으로 해석 가능.
- 컨트롤러는 최종 답변의 통계(예: 빈도, 확률)만 입력으로 사용하므로 매우 가볍습니다.
한계·조건
- 벤치마크 — 특정 추론 태스크(수학, 논리 등)에서만 평가되어 일반화 가능성은 미검증.
- 비교 — 기존 적응형 샘플링 기법(ASC, ESC) 대비 우세하지만, 최신 방법과의 비교는 제한적.
- 코드 — GitHub 공개 예정 — 현재는 논문만 공개.
편집자 한 줄
컨트롤러가 CPU에서 돌아간다는 점이 실용적이지만, 다양한 모델 패밀리와 태스크에서의 robustness가 관건이겠네요.
- #adaptive-sampling
- #reinforcement-learning
- #test-time-scaling
- #llm
Runpeng Dai