Papers·2개월 전

Prompt-Level Distillation — Gemma-3 4B가 StereoSet F1 57→90%, LogiQA 70%

Google 팀이 Teacher 모델의 추론 패턴을 System Prompt에 담는 Prompt-Level Distillation(PLD)을 제안했습니다. Gemma-3 4B에 적용한 결과 StereoSet Macro F1이 57%에서 90.0%로, Contract-NLI는 67%에서 83%로 올랐고 LogiQA 정확도는 70%에 도달했습니다. Mistral Small 3.1에서도 유사한 성능 향상을 보여 cross-architecture 일반화가 가능합니다. 추론 과정이 투명해 인간 검증이 가능하지만, Teacher 모델의 추론 패턴을 수동으로 정리해야 하는 번거로움이 있습니다.

Google이 Teacher 모델의 추론 패턴을 System Prompt에 담아 작은 모델의 추론 능력을 높이는 Prompt-Level Distillation을 공개했습니다.

핵심 결론

벤치 — StereoSet Macro F1 57% → 90.0%, Contract-NLI 67% → 83%, LogiQA 70%.
모델 — Gemma-3 4B 기준, Mistral Small 3.1에서도 유사 추세 — cross-architecture 일반화 확인.

방법

아이디어 — Teacher(큰 모델)의 CoT 추론에서 패턴을 추출해, Student의 System Prompt에 구조화된 지시문 리스트로 주입합니다.
Fine-tuning 없이 prompt만 바꾸므로 latency 증가가 거의 없고, 추론 과정이 투명해 인간이 검증할 수 있습니다.

한계·조건

수작업 — 추론 패턴을 사람이 분석해 지시문으로 정리해야 하므로 초기 비용이 듭니다.
범위 — 논문은 편향·모순·논리 추론 태스크에 집중 — 일반 QA나 생성 태스크에서의 효과는 추가 검증이 필요합니다.

편집자 한 줄

Fine-tuning 없이 prompt만으로 성능을 크게 올린 점이 인상적이지만, 패턴 추출 자동화가 관건이 될 듯합니다.

#distillation
#prompt-engineering
#reasoning
#google

Google

원문 보기 →

Prompt-Level Distillation — Gemma-3 4B가 StereoSet F1 57→90%, LogiQA 70%

핵심 결론

방법

한계·조건

Comments