Papers·1주 전
On-policy distillation의 파라미터 변화 분석 — sparse하고 spectral하게 집중된 업데이트

OPD(On-Policy Distillation)가 모델 파라미터를 어떻게 바꾸는지 분석한 결과, 업데이트가 sparse하고 FFN 위주이며, source weight가 0에 가까운 좌표에 집중된다는 점을 발견했습니다. 이는 dense teacher supervision이 단순한 밀집 재작성이 아님을 시사합니다.
OPD가 파라미터 공간에서 어떤 변화를 일으키는지 체계적으로 분석한 논문입니다.
핵심 결론
- 업데이트 특성 — OPD 업데이트는 크기가 작고 좌표-wise로 sparse하며, 주로 FFN 레이어에 분포합니다.
- 기하학적 구조 — 업데이트는 수치적으로 full-rank지만 spectral하게 집중되어 있으며, source weight의 주 특이 부분공간에서 벗어나고 0에 가까운 좌표에 주로 영향을 줍니다.
방법
- 분석 대상 — 여러 언어 모델과 비전-언어 모델 쌍, 다양한 사용 사례에 걸쳐 분석을 수행했습니다.
- sparsity 활용 — 발견된 sparse subnetwork만 학습해도 full OPD와 거의 동일한 성능을 회복할 수 있었습니다.
- optimizer 비교 — SGD는 AdamW에 비해 성능이 낮았는데, 이는 dense teacher supervision이 유지하는 이질적인 gradient scale에 AdamW의 적응적 스케일링이 유용하기 때문으로 보입니다.
한계·조건
- 분석은 특정 모델 크기와 데이터셋에 국한될 수 있으며, 더 큰 모델이나 다른 distillation 방식에서도 동일한 패턴이 나타날지는 추가 검증이 필요합니다.
편집자 한 줄
OPD의 내부 동작을 이해하는 데 좋은 분석이지만, 실제 학습 효율성 개선으로 이어지려면 subnetwork 선택 방법에 대한 후속 연구가 필요해 보입니다.
- #on-policy-distillation
- #knowledge-distillation
- #model-analysis
- #sparsity
Guo Yu