Ships·10개월 전
Hugging Face, 경량 LLM 추론 엔진 nano-vLLM 공개 — 1200줄 순수 Python으로 vLLM 재구현

Hugging Face 커뮤니티에서 nano-vLLM을 공개했습니다. 기존 vLLM(약 1만 줄, C++/CUDA)을 순수 Python과 Triton으로 약 1200줄에 재구현한 경량 버전으로, Flash Attention과 CUDA Graph를 선택적으로 지원하며 노트북이나 Colab에서도 구동 가능합니다. PagedAttention과 연속 배치 등 핵심 최적화는 유지하면서 코드베이스를 크게 줄여 학습과 수정이 용이한 점이 특징입니다. 다만 텐서 병렬 처리만 기본 지원하고, 생산 수준의 확장성은 vLLM에 미치지 못할 수 있습니다.
- #hugging-face
- #nano-vllm
- #llm-inference
- #open-source
- #edge
Hugging Face