← Back to feed
Papers·어제

Maryland, chunk-level guided generation — 작은 모델의 추론을 큰 모델이 고정 길이 청크 단위로 교정, 수학 벤치마크에서 최대 28%p 향상

Maryland, chunk-level guided generation — 작은 모델의 추론을 큰 모델이 고정 길이 청크 단위로 교정, 수학 벤치마크에서 최대 28%p 향상

Maryland 대학 팀이 큰 모델을 process scorer로 활용해 작은 모델의 추론을 chunk 단위로 교정하는 training-free 기법을 제안했습니다. 고정 길이 청크를 샘플링하고 큰 모델의 log-likelihood로 선택하는 방식으로, PRM guided search와 달리 step-level reward 학습이 필요 없습니다. Contrastive-Guided Selection(CGS)은 GSM8K/MATH 등에서 majority voting 대비 최대 28%p 향상, Qwen2.5-Math-PRM-72B guided search와 동등 이상 성능을 보였습니다. 단, 고정 길이 청크 설계가 길이 편향을 피하는 핵심이며, 가변 길이 scoring은 신뢰할 수 없습니다.

큰 모델을 process scorer로 활용해 작은 모델의 추론 경로를 chunk 단위로 교정하는 training-free 기법이 수학 추론에서 효과를 입증했습니다.

핵심 결론

  • 성능CGS가 GSM8K, MATH, Minerva Math, AMC23, AIME24에서 majority voting 대비 최대 28%p 향상.
  • 비교Qwen2.5-Math-PRM-72B guided search와 동등 이상 성능을 reward 모델 학습 없이 달성.
  • 효율PRM guided search보다 추론 trace 길이가 현저히 짧음.

방법

  • Chunk-Level작은 모델이 매 step마다 k개의 고정 길이 청크를 샘플링하고, 큰 모델이 likelihood로 평가해 선택.
  • LGS vs CGSLGS는 큰 모델의 length-normalized log-probability 최대값, CGS는 여기서 작은 모델의 log-probability를 빼서 차이가 큰 청크를 선호.
  • 길이 편향가변 길이 step을 큰 모델 likelihood로 평가하면 길이 편향이 발생하나, 고정 길이 청크로 회피.

한계·조건

  • 환경Qwen2.5-1.5B + 32B, Llama-3.2-1B + 3.1-70B, Qwen2.5-7B + 72B 조합으로 실험.
  • 청크 길이고정 길이 청크 설계가 필수적이며, 최적 길이는 태스크에 따라 달라질 수 있음.
  • 코드논문에 코드 공개 여부 명시되지 않음.

편집자 한 줄

training-free로 PRM 수준 성능을 낸 점이 인상적이지만, 큰 모델을 매 step마다 호출해야 해서 실제 latency는 무시할 수준이 아닐 듯합니다.

  • #inference-time-scaling
  • #process-reward-model
  • #guided-generation
  • #maryland
University of Maryland College Park
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —