← Back to feed
Papers·어제

RL 기반 적응형 샘플링 — 테스트 타임 스케일링의 비용-정확도 트레이드오프 최적화

RL 기반 적응형 샘플링 — 테스트 타임 스케일링의 비용-정확도 트레이드오프 최적화

Runpeng Dai 팀이 테스트 타임 스케일링에서 샘플링 중단 시점을 강화학습으로 학습하는 경량 컨트롤러를 제안했습니다. MDP로 문제를 정식화하고, 정답 정확도·지연 시간·연산 비용을 동시에 최적화합니다. CPU에서 훈련 및 추론 가능하며, ASC·ESC 같은 기법 대비 샘플 수와 정확도 간 균형이 개선되었습니다. 단, 벤치마크가 특정 추론 태스크에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

테스트 타임 스케일링의 비용 문제를 해결하기 위해, 샘플링 중단 시점을 강화학습으로 학습하는 경량 컨트롤러가 제안되었습니다.

핵심 결론

  • 태스크LLM 추론에서 테스트 타임 스케일링의 샘플링 비용 최적화.
  • 수치ASC, ESC 대비 동일 정확도에서 샘플 수 최대 30% 감소.
  • 방식정답 통계만으로 동작하는 RL 컨트롤러로, CPU에서 훈련·추론 가능.

방법

  • MDP 정식화각 라운드에서 컨트롤러가 중단 또는 추가 샘플링을 결정하는 MDP로 문제를 모델링.
  • 보상 설계정답 정확도, 지연 시간, 연산 비용을 결합한 보상 함수로 RL 훈련.
  • 해석이 프레임워크는 예산 제약이 있는 constrained optimization의 Lagrangian relaxation으로 해석 가능.
  • 컨트롤러는 최종 답변의 통계(예: 빈도, 확률)만 입력으로 사용하므로 매우 가볍습니다.

한계·조건

  • 벤치마크특정 추론 태스크(수학, 논리 등)에서만 평가되어 일반화 가능성은 미검증.
  • 비교기존 적응형 샘플링 기법(ASC, ESC) 대비 우세하지만, 최신 방법과의 비교는 제한적.
  • 코드GitHub 공개 예정 — 현재는 논문만 공개.

편집자 한 줄

컨트롤러가 CPU에서 돌아간다는 점이 실용적이지만, 다양한 모델 패밀리와 태스크에서의 robustness가 관건이겠네요.

  • #adaptive-sampling
  • #reinforcement-learning
  • #test-time-scaling
  • #llm
Runpeng Dai
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —