Papers·1개월 전

Samsung Research, 신뢰 영역 기반 온-폴리시 증류(TrOPD) 제안 — 수학·코드·일반 벤치에서 SOTA

Samsung Research 팀이 교사-학생 분포 차이로 인한 온-폴리시 증류(OPD) 불안정을 해결하는 TrOPD를 제안했습니다. 신뢰 영역에서만 reverse-KL 추정을 수행하고, 이상 영역에서는 gradient clipping/masking 및 forward-KL로 대처하며, 교사 prefix로 오프-폴리시 guidance를 병행합니다. 수학 추론, 코드 생성, 일반 도메인 벤치마크에서 기존 OPD, EOPD, REOPOLD 대비 일관된 성능 향상을 보였습니다.

Samsung Research가 교사-학생 분포 차이에서도 안정적인 온-폴리시 증류를 가능케 하는 TrOPD를 공개했습니다.

핵심 결론

태스크 — 수학 추론(GSM8K, MATH), 코드 생성(HumanEval, MBPP), 일반 도메인(MMLU, ARC)에서 기존 OPD 방법 대비 평균 2~5% 향상.
핵심 — 분포 차이가 큰 영역에서 신뢰할 수 없는 gradient를 차단하고, 교사 prefix를 활용한 오프-폴리시 guidance로 탐색을 유도합니다.

방법

신뢰 영역 — 교사-학생 토큰 확률 차이가 임계값 이하인 위치에서만 reverse-KL로 증류 — 불안정한 gradient를 원천 차단.
이상 영역 — 임계값 초과 시 gradient clipping, masking, 또는 forward-KL 추정 중 하나를 선택해 적용.
오프-폴리시 guidance — 교사가 생성한 prefix를 학생에게 제공하고 forward-KL로 모방 — 학생이 신뢰 영역 쪽으로 탐색하도록 유도.

한계·조건

리소스 — 온-폴리시 샘플링 + 교사 forward pass가 필요해 OPD 대비 약 1.5배 학습 시간 증가.
임계값 — 신뢰 영역 판단을 위한 임계값은 하이퍼파라미터로, 데이터셋에 따라 튜닝이 필요합니다.
코드 — 논문 내 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

분포 차이가 큰 distillation 시나리오(예: 큰 모델 → 작은 모델)에서 특히 유용해 보이네요. 다만 임계값 튜닝이 실용화의 관건이 될 듯합니다.

#knowledge-distillation
#on-policy
#trl
#samsung

Samsung Research

원문 보기 →

Samsung Research, 신뢰 영역 기반 온-폴리시 증류(TrOPD) 제안 — 수학·코드·일반 벤치에서 SOTA

핵심 결론

방법

한계·조건

Comments