Papers·1개월 전

LLM 온-폴리시 증류에서 보상-외삽 한계 — 형식 붕괴 임계값 λ* 의 닫힌 형태 유도

Nanyang Technological University 팀이 LLM 온-폴리시 증류(OPD)에서 보상-외삽 계수 λ가 임계값 λ*를 넘으면 구조화된 출력 형식이 붕괴함을 보였습니다. 단일 위치 Bernoulli 환원에서 λ*를 교사 모달 확률, 웜스타트 질량, 중요도 샘플링 클립 강도로 결정되는 닫힌 형태로 유도했으며, Amazon Fashion 데이터셋에서 3개의 사전 등록 실험으로 예측을 검증했습니다. λ* 바로 아래에서 ListOPD를 적용한 1.7B Qwen3 학생 모델이 8B SFT 기준선과 도메인 내 동등 성능을 1/5 파라미터로 달성했으나, 이는 주로 형식 준수(parse validity) 개선 덕분이며 NDCG@1은 λ에 따라 거의 변화하지 않았습니다. 한계: 동등성 평가는 Gemini-graded 루브릭에 의존하므로 평가자의 노출 편향이 반영될 수 있습니다.

#llm
#distillation
#on-policy
#reward-extrapolation
#format-collapse

Nanyang Technological University

원문 보기 →

LLM 온-폴리시 증류에서 보상-외삽 한계 — 형식 붕괴 임계값 λ* 의 닫힌 형태 유도

Comments