Papers·2일 전
Orthrus: 이중 구조로 autoregressive 정확성과 diffusion 병렬성을 통합 — 최대 7.8x 속도 향상
Orthrus는 autoregressive LLM의 정확한 생성과 diffusion 모델의 병렬 토큰 생성을 통합한 프레임워크로, 최대 7.8배 속도 향상을 달성했습니다. 기존의 frozen LLM에 경량 모듈을 추가하여 autoregressive view와 diffusion view를 동시에 운영하며, 두 view가 동일한 KV cache를 공유하고 exact consensus mechanism을 통해 lossless inference를 보장합니다. 단, O(1) 메모리 오버헤드와 최소한의 파라미터 추가만 필요하지만, diffusion head의 학습 비용과 convergence 보장에 대한 추가 검증이 필요합니다.
- #autoregressive
- #diffusion
- #llm
- #inference-speedup
- #orthrus
Chien Van Nguyen