Papers·3개월 전

Whisper ASR 서빙 latency 73% 단축 — SJF/HRRN 스케줄링을 vLLM에 통합

ASR 서빙에서 FCFS 스케줄링 대신 SJF와 HRRN을 적용해 E2E latency를 크게 줄였습니다. SJF는 중간 latency를 최대 73% 줄였지만 긴 요청의 starvation으로 꼬리 latency가 97% 증가했습니다. HRRN은 중간 latency를 28% 줄이면서 꼬리 latency 증가를 24%로 제한하며 workload drift에서도 안정적인 성능을 보였습니다. 오디오 길이가 처리 시간의 정확한 proxy라는 점을 활용한 것이 핵심입니다.

ASR 서빙에서 오디오 길이를 작업 시간의 proxy로 삼아 SJF와 HRRN 스케줄러를 vLLM에 통합, E2E latency를 최대 73%까지 줄였습니다.

핵심 결론

성능 — LibriSpeech test-clean에서 SJF는 중간 E2E latency를 최대 73% 감소, HRRN은 28% 감소.
트레이드오프 — SJF는 꼬리 latency가 97% 증가하지만 HRRN은 24%로 제한.

방법

핵심 아이디어 — Whisper 모델에서 오디오 길이가 처리 시간의 정확한 proxy임을 확인하고, 이를 기반으로 SJF와 HRRN을 vLLM에 구현.
스케줄러 — SJF는 가장 짧은 작업을 우선 처리, HRRN은 (대기시간+서비스시간)/서비스시간 비율로 우선순위를 동적 조정해 starvation을 완화.

한계·조건

환경 — 실험은 Whisper 모델에 국한, 다른 ASR 모델에도 일반화될지는 추가 검증 필요.
오버헤드 — 스케줄링 오버헤드는 요청당 0.1ms 미만으로 무시할 수준.
코드 — vLLM 기반 구현 — 코드 공개 여부는 명시되지 않음.

편집자 한 줄

HRRN이 실용적인 트레이드오프를 제공하지만, workload drift가 심한 환경에서도 꼬리 latency가 안정적인지 추가 실험이 필요해 보입니다.

#asr
#scheduling
#vllm
#whisper
#latency

Darshan Makwana

원문 보기 →

Whisper ASR 서빙 latency 73% 단축 — SJF/HRRN 스케줄링을 vLLM에 통합

핵심 결론

방법

한계·조건

Comments