Papers·5일 전
Hybrid Policy Distillation unifies forward and reverse KL for LLM compression — 2x speedup on math reasoning

저자들은 지식 증류(KD) 방법을 토큰 수준의 재가중 로그-우도 목표로 통합하는 관점을 제시하고, 순방향과 역방향 KL 발산의 장점을 결합한 Hybrid Policy Distillation (HPD)를 제안한다. HPD는 모드 커버리지와 모드 탐색을 균형 있게 하며, 오프-폴리시 데이터와 가벼운 온-폴리시 샘플링을 혼합하여 긴 생성 수학 추론, 대화, 코드 작업에서 최적화 안정성과 효율성을 개선한다. 코드는 공개되었다.
- #knowledge-distillation
- #llm-compression
- #kl-divergence
- #hybrid-policy-distillation
Wenhong Zhu