Papers·4일 전

UniPrefill: 모든 아키텍처에서 TTFT 2.1배 가속 — vLLM 네이티브 통합

Tencent 팀이 제안한 UniPrefill은 기존 sparse attention 기반 prefill 가속이 hybrid 아키텍처(linear/full attention, sliding window/full attention)에서 성능이 떨어지고 continuous batching과 호환되지 않는 문제를 해결합니다. Token 레벨에서 연산을 직접 가속하며, vLLM의 스케줄링을 확장해 prefill-decode 동시 처리와 tensor parallel을 지원합니다. 최대 2.1x TTFT(Time-To-First-Token) 속도 향상을 보이며, 동시 요청이 많을수록 효과가 커집니다. 단, 특정 하드웨어 및 배치 설정에 의존적일 수 있습니다.

#llm
#inference
#prefill
#vllm
#tencent

Tencent

원문 보기 →

UniPrefill: 모든 아키텍처에서 TTFT 2.1배 가속 — vLLM 네이티브 통합

Comments