Papers·2일 전

Cola DLM: 계층적 잠재 확산 언어 모델 — 텍스트 생성에서 2B 파라미터 autoregressive·LLaDA 대비 경쟁력

Cola DLM은 텍스트 생성에 계층적 잠재 확산을 도입한 모델로, Text VAE로 텍스트-잠재 매핑을 학습하고 block-causal DiT로 연속 잠재 공간에서 전역 의미 사전을 모델링한 뒤 조건부 디코딩으로 텍스트를 생성합니다. 기존 autoregressive 모델과 LLaDA 등 non-autoregressive 대안 대비, 2B 파라미터 규모에서 8개 벤치마크에 걸쳐 경쟁력 있는 성능을 보였으며, 약 2000 EFLOPs까지의 스케일링 곡선에서도 강한 확장성을 확인했습니다. 단, 이 접근은 연속 잠재 공간에서의 prior 학습에 의존하므로, token-level likelihood 기반 모델과의 공정 비교가 까다롭고, 구현 복잡도가 높은 편입니다.

#diffusion
#language-model
#latent-diffusion
#non-autoregressive
#huggingface

Hongcan Guo

원문 보기 →

Cola DLM: 계층적 잠재 확산 언어 모델 — 텍스트 생성에서 2B 파라미터 autoregressive·LLaDA 대비 경쟁력

Comments