Papers·1개월 전

Maryland, chunk-level guided generation — 작은 모델의 추론을 큰 모델이 고정 길이 청크 단위로 교정, 수학 벤치마크에서 최대 28%p 향상

Maryland 대학 팀이 큰 모델을 process scorer로 활용해 작은 모델의 추론을 chunk 단위로 교정하는 training-free 기법을 제안했습니다. 고정 길이 청크를 샘플링하고 큰 모델의 log-likelihood로 선택하는 방식으로, PRM guided search와 달리 step-level reward 학습이 필요 없습니다. Contrastive-Guided Selection(CGS)은 GSM8K/MATH 등에서 majority voting 대비 최대 28%p 향상, Qwen2.5-Math-PRM-72B guided search와 동등 이상 성능을 보였습니다. 단, 고정 길이 청크 설계가 길이 편향을 피하는 핵심이며, 가변 길이 scoring은 신뢰할 수 없습니다.

큰 모델을 process scorer로 활용해 작은 모델의 추론 경로를 chunk 단위로 교정하는 training-free 기법이 수학 추론에서 효과를 입증했습니다.

핵심 결론

성능 — CGS가 GSM8K, MATH, Minerva Math, AMC23, AIME24에서 majority voting 대비 최대 28%p 향상.
비교 — Qwen2.5-Math-PRM-72B guided search와 동등 이상 성능을 reward 모델 학습 없이 달성.
효율 — PRM guided search보다 추론 trace 길이가 현저히 짧음.

방법

Chunk-Level — 작은 모델이 매 step마다 k개의 고정 길이 청크를 샘플링하고, 큰 모델이 likelihood로 평가해 선택.
LGS vs CGS — LGS는 큰 모델의 length-normalized log-probability 최대값, CGS는 여기서 작은 모델의 log-probability를 빼서 차이가 큰 청크를 선호.
길이 편향 — 가변 길이 step을 큰 모델 likelihood로 평가하면 길이 편향이 발생하나, 고정 길이 청크로 회피.

한계·조건

환경 — Qwen2.5-1.5B + 32B, Llama-3.2-1B + 3.1-70B, Qwen2.5-7B + 72B 조합으로 실험.
청크 길이 — 고정 길이 청크 설계가 필수적이며, 최적 길이는 태스크에 따라 달라질 수 있음.
코드 — 논문에 코드 공개 여부 명시되지 않음.

편집자 한 줄

training-free로 PRM 수준 성능을 낸 점이 인상적이지만, 큰 모델을 매 step마다 호출해야 해서 실제 latency는 무시할 수준이 아닐 듯합니다.

#inference-time-scaling
#process-reward-model
#guided-generation
#maryland

University of Maryland College Park

원문 보기 →

Maryland, chunk-level guided generation — 작은 모델의 추론을 큰 모델이 고정 길이 청크 단위로 교정, 수학 벤치마크에서 최대 28%p 향상

핵심 결론

방법

한계·조건

Comments