Papers·3일 전
BLT Diffusion: 바이트 수준 언어 모델 생성 속도 50% 개선 — 병렬 디코딩 기법

Meta FAIR 팀이 Byte Latent Transformer(BLT)의 느린 바이트 단위 생성을 해결하기 위해 BLT Diffusion(BLT-D)을 제안했습니다. 블록 단위 확산 목적 함수를 추가 학습하여 한 번에 여러 바이트를 병렬 생성, 메모리 대역폭 비용을 50% 이상 줄였습니다. 추가로 자기 추측 디코딩(BLT-S)과 검증 보강(BLT-DV) 변형도 함께 제시되어 품질과 속도의 트레이드오프를 조절할 수 있습니다. 다만 이 방법들은 학습 시 추가 확산 목적 함수가 필요해 기존 BLT 체크포인트에 바로 적용되지는 않습니다.
- #byte-level-lm
- #diffusion
- #speculative-decoding
- #meta
- #blt
Julie Kallini