Papers·6일 전

d-OPSD: 확산 LLM 전용 자기 증류 프레임워크 — RLVR 대비 10% 최적화 스텝으로 추론 성능 개선

Max Planck Institute for Intelligent Systems 연구팀이 확산 LLM(dLLM)에 최적화된 최초의 on-policy self-distillation 프레임워크 d-OPSD를 제안했습니다. 기존 OPSD는 autoregressive 모델에 맞춰져 있어 dLLM의 임의 순서 생성과 충돌하는데, d-OPSD는 self-teacher를 suffix conditioning으로 구성하고 token-level 대신 step-level supervision을 도입해 이 문제를 해결했습니다. 네 가지 추론 벤치마크에서 RLVR 대비 약 10%의 최적화 스텝만으로 더 나은 성능을 달성했으며, 코드는 공개되었습니다.

Max Planck Institute for Intelligent Systems가 확산 LLM(dLLM)에 특화된 최초의 on-policy self-distillation 프레임워크 d-OPSD를 공개했습니다.

핵심 결론

벤치 — GSM8K, MATH, ARC-C, MMLU 네 가지 추론 벤치마크에서 RLVR 및 SFT 베이스라인을 일관되게 능가.
효율 — RLVR 대비 약 10%의 최적화 스텝만으로 동등 이상의 성능을 달성해 샘플 효율이 크게 개선.

방법

suffix conditioning — self-teacher로 생성한 답변을 suffix 조건으로 사용해, autoregressive 모델에서 쓰는 prefix 조건 대신 dLLM의 임의 순서 생성과 호환되도록 설계.
step-level supervision — token-level이 아닌 denoising step 단위로 손실을 계산해, dLLM의 반복적 denoising 과정과 정렬.

한계·조건

범위 — 네 가지 추론 벤치마크에 국한되어 있으며, 생성 품질이나 긴 문장 생성에서의 효과는 추가 검증이 필요.
코드 — GitHub에 공개되어 재현 가능.

편집자 한 줄

dLLM 후학습(post-training) 방법론이 거의 없었던 점을 고려하면, 이 연구는 실용적인 출발점이 될 만합니다.

#diffusion-llm
#self-distillation
#post-training
#max-planck

Max Planck Institute for Intelligent Systems

원문 보기 →

d-OPSD: 확산 LLM 전용 자기 증류 프레임워크 — RLVR 대비 10% 최적화 스텝으로 추론 성능 개선

핵심 결론

방법

한계·조건

Comments