← Back to feed
Papers·1주 전

Reflective Masking — MDM의 다중 턴 마스킹·디노이징으로 추론 성능 향상

Reflective Masking — MDM의 다중 턴 마스킹·디노이징으로 추론 성능 향상

Tianyi Lab 연구진이 Mask Diffusion Model(MDM)에 다중 턴 마스킹·디노이징을 도입하는 Reflective Masking(RM)을 제안했습니다. RM은 경량 post-training만으로 MDM이 이전 출력을 지역적으로 수정하며 반복 추론할 수 있게 하며, 텍스트 생성, 스도쿠, 이미지 편집 등 다양한 태스크에서 표준 마스킹 기반 베이스라인을 일관되게 능가했습니다. 추가 파라미터나 아키텍처 변경이 필요 없고, History Reference라는 파라미터 없는 메커니즘으로 이전 턴의 중간 디노이징 상태를 활용합니다.

AR 모델의 chain-of-thought 추론은 전체 시퀀스를 재생성해야 하지만, MDM의 마스킹 메커니즘은 지역적 수정을 자연스럽게 지원합니다. Reflective Masking은 이 특성을 활용해 다중 턴 추론을 가능하게 했습니다.

핵심 결론

  • 태스크텍스트 생성, 스도쿠, 이미지 편집에서 표준 마스킹 베이스라인 대비 일관된 성능 향상.
  • 특징추가 파라미터나 아키텍처 변경 없이 경량 post-training만으로 적용 가능.

방법

  • Reflective MaskingMDM이 이전 출력의 일부를 마스킹하고 다시 디노이징하며 반복 수정하는 과정을 post-training으로 학습.
  • History Reference파라미터 없는 메커니즘으로, 이전 턴의 중간 디노이징 상태를 참조해 수정 방향을 안내.
  • AR 모델처럼 이전 추론 내용을 활용하면서도, 지역적 수정만으로 효율적으로 개선합니다.

한계·조건

  • 범위다양한 모달리티에서 검증되었지만, 대규모 언어 모델(LLM) 수준의 벤치마크 결과는 아직 공개되지 않았습니다.
  • 코드Hugging Face 논문 페이지에서 abstract와 figure만 공개, 코드 및 모델은 미공개.

편집자 한 줄

MDM의 추론 능력을 확장한 점은 흥미롭지만, AR 모델 대비 실제 latency나 계산량 비교가 빠져 있어 실용성 평가는 좀 더 기다려야 할 듯합니다.

  • #mask-diffusion
  • #reasoning
  • #text-generation
  • #image-editing
Tianyi Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —