Papers·3주 전
Uniform Diffusion 의 leave-one-out posterior 재정의 — MDM 과 격차를 줄이는 parameterization

Uniform Diffusion Model (UDM) 에서 기존 plug-in bridge parameterization 이 denoising posterior 가 아닌 leave-one-out posterior 에 최적화된다는 점을 밝히고, 이 차이를 해소하는 변환 공식을 유도했습니다. 또한 흡수 상태 재구성(absorbing-state reformulation)을 통해 UDM 을 masked diffusion 유사한 샘플링 연산으로 분해, 언어 모델링에서 leave-one-out parameterization 이 일관된 성능 향상을 보였습니다. 저자들은 이 결과가 masked diffusion 과 uniform diffusion 간의 격차가 marginal 자체보다 parameterization 과 sampling 설계에서 비롯된다고 주장합니다.
UDM 의 표준 plug-in bridge parameterization 이 실제로는 leave-one-out posterior 에 최적화되어 있다는 점을 정리하고, 이를 교정하는 변환과 샘플링 개선을 제시합니다.
핵심 결론
- 문제 — UDM 의 plug-in bridge parameterization 은 denoising posterior 가 아닌 leave-one-out posterior 를 최적화한다는 불일치를 발견.
- 해결 — Denoiser, leave-one-out posterior, score 간의 정확한 변환 관계를 유도해 parameterization 과 학습 목표를 분리.
- 성능 — 언어 모델링에서 leave-one-out parameterization 이 UDM 생성 품질을 일관되게 개선, 흡수 상태 재구성은 masked diffusion 과 동등 이상.
방법
- Leave-one-out posterior — 각 clean token 을 예측할 때 자신의 noisy observation 을 제외한 조건부 분포로, 기존 bridge parameterization 이 암묵적으로 최적화하는 대상.
- 변환 공식 — Denoiser 로부터 leave-one-out posterior 와 score 를 계산하는 정확한 닫힌 형태를 제시.
- 흡수 상태 재구성 — UDM 의 joint law 를 유지하면서 masked diffusion 과 유사한 sampling 연산(remasking, carry-over unmasking)으로 분해하는 기법.
한계·조건
- 벤치마크 — 언어 모델링 태스크에 한정, 이미지 등 다른 도메인 검증은 아직.
- 코드 — GitHub (https://github.com/samsongourevitch/rev_udm) 에 공개.
- 계산량 — Leave-one-out posterior 기반 샘플링이 추가 연산을 필요로 하지만, 저자들은 predictor-corrector sampler 로 inference 시 추가 학습 없이 개선 가능함을 보임.
편집자 한 줄
Masked diffusion 과 uniform diffusion 의 격차를 parameterization 문제로 좁힌 점이 흥미롭습니다. 흡수 상태 재구성 아이디어는 실제 구현에서 remasking 전략을 어떻게 설계할지에 따라 추가 개선 여지가 있을 듯합니다.
- #discrete-diffusion
- #uniform-diffusion
- #parameterization
- #language-modeling
Samson Gourevitch