Papers·1개월 전

TA-OPD: 교사 신호의 학습 가능성에 기반한 선택적 온-정책 증류 — 5% 토큰만으로 full-token OPD 능가

홍콩 폴리텍 연구진이 온-정책 증류(OPD)에서 교사 신호의 학습 가능성을 측정하는 'token teachability' 개념을 제안하고, 이를 기반으로 한 선택적 증류 방법 TA-OPD를 공개했습니다. 기존의 KL 발산 기반 선택 방식이 학습 가능한 불일치와 양립 불가능한 불일치를 구분하지 못하는 문제를 지적하며, 동일 문맥 내 KL 감소량을 기준으로 teachability를 정의합니다. Qwen2.5 및 Qwen3 실험에서 TA-OPD는 전체 토큰 대비 5% 토큰만으로도 full-token OPD를 능가했으며, 엔트로피 및 발산 기반 기준선보다 우수했습니다. 단, 이 방법은 교사-학생 쌍이 같은 패밀리일 때 가장 효과적이며, 다른 아키텍처 간 전이에서는 추가 검증이 필요합니다.

홍콩 폴리텍 연구진이 온-정책 증류에서 교사 신호의 '학습 가능성(teachability)'을 측정해 불필요한 토큰을 걸러내는 TA-OPD를 제안했습니다.

핵심 결론

성능 — Qwen2.5-1.5B/7B 및 Qwen3-1.7B/8B 설정에서 TA-OPD는 5% 토큰만으로 full-token OPD를 능가하거나 동등한 성능을 냈습니다.
기준선 대비 — 엔트로피 기반 선택, KL 발산 기반 선택 등 기존 선택적 OPD 방법보다 일관되게 높은 정확도를 기록했습니다.

방법

문제 정의 — 기존 선택적 OPD는 KL 발산이 큰 토큰을 우선했지만, 이는 교사가 학생의 현재 지지 집합 밖에 질량을 두는 '양립 불가능한 불일치'까지 포함해 오히려 학습을 방해합니다.
Teachability — 동일 문맥에서 교사-학생 KL 감소량을 측정해, 학생의 top-K 후보에 교사가 보정 질량을 할당하는 '학습 가능한 불일치'만 선별합니다.
TA-OPD — 경량화된 토큰 위치 선택 방법으로, 보상 모델이나 검증기 없이 높은 teachability를 가진 위치에만 OPD 손실을 적용합니다.

한계·조건

범위 — 실험은 Qwen2.5와 Qwen3 계열 내 교사-학생 쌍에 한정되었으며, 다른 아키텍처(예: Llama, Mistral) 간 전이에서는 추가 검증이 필요합니다.
계산량 — Teachability 측정을 위해 추가적인 forward pass가 필요하지만, 선택 후 backward는 5% 토큰만 수행하므로 전체 OPD 대비 효율적입니다.
코드 — 논문 내 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

선택적 증류의 기준을 '불일치 크기'에서 '학습 가능성'으로 전환한 점이 흥미롭습니다. 특히 5% 토큰만으로 full-token을 이긴 결과는 실용성 측면에서 한 번 봐둘 만합니다.

#knowledge-distillation
#on-policy-distillation
#token-selection
#qwen
#hong-kong-polyu

The Hong Kong Polytechnic University

원문 보기 →

TA-OPD: 교사 신호의 학습 가능성에 기반한 선택적 온-정책 증류 — 5% 토큰만으로 full-token OPD 능가

핵심 결론

방법

한계·조건

Comments