← Back to feed
Papers·6일 전

d-OPSD: 확산 LLM 전용 자기 증류 프레임워크 — RLVR 대비 10% 최적화 스텝으로 추론 성능 개선

d-OPSD: 확산 LLM 전용 자기 증류 프레임워크 — RLVR 대비 10% 최적화 스텝으로 추론 성능 개선

Max Planck Institute for Intelligent Systems 연구팀이 확산 LLM(dLLM)에 최적화된 최초의 on-policy self-distillation 프레임워크 d-OPSD를 제안했습니다. 기존 OPSD는 autoregressive 모델에 맞춰져 있어 dLLM의 임의 순서 생성과 충돌하는데, d-OPSD는 self-teacher를 suffix conditioning으로 구성하고 token-level 대신 step-level supervision을 도입해 이 문제를 해결했습니다. 네 가지 추론 벤치마크에서 RLVR 대비 약 10%의 최적화 스텝만으로 더 나은 성능을 달성했으며, 코드는 공개되었습니다.

Max Planck Institute for Intelligent Systems가 확산 LLM(dLLM)에 특화된 최초의 on-policy self-distillation 프레임워크 d-OPSD를 공개했습니다.

핵심 결론

  • 벤치GSM8K, MATH, ARC-C, MMLU 네 가지 추론 벤치마크에서 RLVR 및 SFT 베이스라인을 일관되게 능가.
  • 효율RLVR 대비 약 10%의 최적화 스텝만으로 동등 이상의 성능을 달성해 샘플 효율이 크게 개선.

방법

  • suffix conditioningself-teacher로 생성한 답변을 suffix 조건으로 사용해, autoregressive 모델에서 쓰는 prefix 조건 대신 dLLM의 임의 순서 생성과 호환되도록 설계.
  • step-level supervisiontoken-level이 아닌 denoising step 단위로 손실을 계산해, dLLM의 반복적 denoising 과정과 정렬.

한계·조건

  • 범위네 가지 추론 벤치마크에 국한되어 있으며, 생성 품질이나 긴 문장 생성에서의 효과는 추가 검증이 필요.
  • 코드GitHub에 공개되어 재현 가능.

편집자 한 줄

dLLM 후학습(post-training) 방법론이 거의 없었던 점을 고려하면, 이 연구는 실용적인 출발점이 될 만합니다.

  • #diffusion-llm
  • #self-distillation
  • #post-training
  • #max-planck
Max Planck Institute for Intelligent Systems
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —