Papers·1개월 전

OmniOPD — logit 없이 chunk 단위로 teacher 증류, 수학 벤치에서 +28.64%

Meta Research가 기존 On-Policy Distillation(OPD)의 두 한계(teacher logit 필요, token 수준 신호의 취약성)를 해결하는 OmniOPD를 제안했습니다. 핵심은 token-level logit matching 대신 Monte Carlo rollout으로 multi-token chunk의 의미 유사도를 측정하고, peak-entropy scheduler로 student의 불확실한 지점에만 집중 감독하는 방식입니다. 수학 벤치에서 표준 OPD 대비 최대 +28.64% 향상, black-box teacher(Claude-4.5-Haiku 등) 사용 시 추가 +9.54% 개선을 보였습니다.

Meta Research가 logit 없이 chunk 단위로 teacher를 증류하는 OmniOPD를 공개했습니다.

핵심 결론

성능 — 수학 벤치에서 표준 OPD 대비 최대 +28.64% 향상.
black-box — Claude-4.5-Haiku, Gemini-2.5-Flash 등 logit 미공개 teacher로도 open-weight teacher 대비 +9.54% 추가 개선.

방법

chunk-level — Monte Carlo rollout으로 multi-token chunk의 teacher 선호도를 연속적 의미 유사도로 근사.
집중 감독 — peak-entropy scheduler가 student의 고불확실 추론 분기점에서만 감독하여 효율화.
안정화 — Dirichlet-Multinomial Bayesian prior와 base-model KL anchor로 분산 억제 및 정책 붕괴 방지.

한계·조건

비용 — Monte Carlo rollout으로 인해 teacher 호출 횟수가 증가, 추론 비용이 늘어날 수 있습니다.
벤치 — 수학 외 다른 도메인(코드, 상식 추론)에서의 효과는 논문에서 추가 검증이 필요해 보입니다.
코드 — 코드 공개 여부는 아직 확인되지 않았습니다.

편집자 한 줄

logit 없이 chunk 단위 증류가 token-level logit matching보다 noise에 강하다는 직관을 잘 실험으로 증명한 점이 인상적입니다. 다만 rollout 비용이 실용성에 어떤 영향을 줄지 지켜볼 필요가 있네요.

#distillation
#on-policy
#meta
#math
#llm

Meta Research

원문 보기 →

OmniOPD — logit 없이 chunk 단위로 teacher 증류, 수학 벤치에서 +28.64%

핵심 결론

방법

한계·조건

Comments