← Back to feed
Papers·3일 전

TextLDM: 이미지·비디오용 DiT를 언어 생성으로 확장 — GPT-2 수준 성능

TextLDM: 이미지·비디오용 DiT를 언어 생성으로 확장 — GPT-2 수준 성능

Diffusion Transformer(DiT)를 언어 생성에 적용한 TextLDM이 공개되었습니다. VAE로 연속 잠재 공간을 만든 뒤, 사전 학습된 언어 모델의 표현을 정렬(REPA)하는 방식으로 조건부 디노이징을 강화했고, OpenWebText2에서 기존 확산 언어 모델을 크게 앞서며 동일 조건의 GPT-2와 비슷한 성능을 냈습니다. 다만 재구성 손실만으로는 품질이 충분하지 않아 REPA 정렬이 핵심이며, 이 결과는 시각 생성과 언어 이해를 통합하는 단일 DiT 아키텍처로 가는 구체적인 발걸음으로 볼 수 있습니다.

Joy Future Academy

Comments

— 첫 댓글을 남겨보세요 —