Papers·1주 전
Reflective Masking — MDM의 다중 턴 마스킹·디노이징으로 추론 성능 향상

Tianyi Lab 연구진이 Mask Diffusion Model(MDM)에 다중 턴 마스킹·디노이징을 도입하는 Reflective Masking(RM)을 제안했습니다. RM은 경량 post-training만으로 MDM이 이전 출력을 지역적으로 수정하며 반복 추론할 수 있게 하며, 텍스트 생성, 스도쿠, 이미지 편집 등 다양한 태스크에서 표준 마스킹 기반 베이스라인을 일관되게 능가했습니다. 추가 파라미터나 아키텍처 변경이 필요 없고, History Reference라는 파라미터 없는 메커니즘으로 이전 턴의 중간 디노이징 상태를 활용합니다.
AR 모델의 chain-of-thought 추론은 전체 시퀀스를 재생성해야 하지만, MDM의 마스킹 메커니즘은 지역적 수정을 자연스럽게 지원합니다. Reflective Masking은 이 특성을 활용해 다중 턴 추론을 가능하게 했습니다.
핵심 결론
- 태스크 — 텍스트 생성, 스도쿠, 이미지 편집에서 표준 마스킹 베이스라인 대비 일관된 성능 향상.
- 특징 — 추가 파라미터나 아키텍처 변경 없이 경량 post-training만으로 적용 가능.
방법
- Reflective Masking — MDM이 이전 출력의 일부를 마스킹하고 다시 디노이징하며 반복 수정하는 과정을 post-training으로 학습.
- History Reference — 파라미터 없는 메커니즘으로, 이전 턴의 중간 디노이징 상태를 참조해 수정 방향을 안내.
- AR 모델처럼 이전 추론 내용을 활용하면서도, 지역적 수정만으로 효율적으로 개선합니다.
한계·조건
- 범위 — 다양한 모달리티에서 검증되었지만, 대규모 언어 모델(LLM) 수준의 벤치마크 결과는 아직 공개되지 않았습니다.
- 코드 — Hugging Face 논문 페이지에서 abstract와 figure만 공개, 코드 및 모델은 미공개.
편집자 한 줄
MDM의 추론 능력을 확장한 점은 흥미롭지만, AR 모델 대비 실제 latency나 계산량 비교가 빠져 있어 실용성 평가는 좀 더 기다려야 할 듯합니다.
- #mask-diffusion
- #reasoning
- #text-generation
- #image-editing
Tianyi Lab