Papers·1개월 전

RL 기반 적응형 샘플링 — 테스트 타임 스케일링의 비용-정확도 트레이드오프 최적화

Runpeng Dai 팀이 테스트 타임 스케일링에서 샘플링 중단 시점을 강화학습으로 학습하는 경량 컨트롤러를 제안했습니다. MDP로 문제를 정식화하고, 정답 정확도·지연 시간·연산 비용을 동시에 최적화합니다. CPU에서 훈련 및 추론 가능하며, ASC·ESC 같은 기법 대비 샘플 수와 정확도 간 균형이 개선되었습니다. 단, 벤치마크가 특정 추론 태스크에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

테스트 타임 스케일링의 비용 문제를 해결하기 위해, 샘플링 중단 시점을 강화학습으로 학습하는 경량 컨트롤러가 제안되었습니다.

핵심 결론

태스크 — LLM 추론에서 테스트 타임 스케일링의 샘플링 비용 최적화.
수치 — ASC, ESC 대비 동일 정확도에서 샘플 수 최대 30% 감소.
방식 — 정답 통계만으로 동작하는 RL 컨트롤러로, CPU에서 훈련·추론 가능.

방법

MDP 정식화 — 각 라운드에서 컨트롤러가 중단 또는 추가 샘플링을 결정하는 MDP로 문제를 모델링.
보상 설계 — 정답 정확도, 지연 시간, 연산 비용을 결합한 보상 함수로 RL 훈련.
해석 — 이 프레임워크는 예산 제약이 있는 constrained optimization의 Lagrangian relaxation으로 해석 가능.
컨트롤러는 최종 답변의 통계(예: 빈도, 확률)만 입력으로 사용하므로 매우 가볍습니다.

한계·조건

벤치마크 — 특정 추론 태스크(수학, 논리 등)에서만 평가되어 일반화 가능성은 미검증.
비교 — 기존 적응형 샘플링 기법(ASC, ESC) 대비 우세하지만, 최신 방법과의 비교는 제한적.
코드 — GitHub 공개 예정 — 현재는 논문만 공개.

편집자 한 줄

컨트롤러가 CPU에서 돌아간다는 점이 실용적이지만, 다양한 모델 패밀리와 태스크에서의 robustness가 관건이겠네요.

#adaptive-sampling
#reinforcement-learning
#test-time-scaling
#llm

Runpeng Dai

원문 보기 →

RL 기반 적응형 샘플링 — 테스트 타임 스케일링의 비용-정확도 트레이드오프 최적화

핵심 결론

방법

한계·조건

Comments