← Back to feed
Papers·5일 전

물리 AI 추론, HBM 대역폭이 병목이 아니다 — H100 vs L4 디코드 지연 분석

물리 AI 추론, HBM 대역폭이 병목이 아니다 — H100 vs L4 디코드 지연 분석

물리 AI 시스템(로봇, 자율주행 등)의 batch-1 autoregressive decode에서 HBM 대역폭이 병목이라는 통념을 재검토한 논문. Qwen-2.5-7B 기준 L4는 이론적 메모리 한계의 81%에 도달하지만 H100은 27%에 그쳐, 빠른 메모리가 비례적 지연 감소로 이어지지 않음을 보였다. CUDA Graphs 실험에서 H100은 1.259x, L4는 1.028x 개선에 그쳐 launch-side 오버헤드가 고속 GPU에서 두드러짐을 확인했다. 양자화 경로도 예상만큼 효과적이지 않아, bnb-nf4는 59.36ms/step, AutoAWQ+Marlin은 45.24ms/step으로 bf16 대비 절반 이하 개선에 그쳤다.

물리 AI 추론에서 HBM 대역폭이 병목이라는 통념을 재검토한 논문. batch-1 decode에서 빠른 GPU일수록 대역폭 활용률이 낮아지는 현상을 실험으로 입증했다.

핵심 결론

  • 대역폭 활용률Qwen-2.5-7B, ctx=2048 기준 L4는 이론적 메모리 한계의 81%에 도달하지만 H100은 27%에 그침.
  • CUDA Graphs 효과H100에서 1.259x 개선, L4에서 1.028x — launch-side 오버헤드가 고속 GPU에서 두드러짐.
  • 양자화 한계bnb-nf4 59.36ms/step, AutoAWQ+Marlin 45.24ms/step으로 bf16(62.32ms) 대비 예상만큼 개선되지 않음. GPTQ+ExLlamaV2만 17.36ms/step으로 유의미.

방법

  • 실험 설정7~8B급 GQA transformer 3종(Qwen-2.5-7B 등)을 H100, A100, L40S, L4에서 bf16 SDPA로 측정. context 길이 2048~16384, 총 44개 셀.
  • 분석메모리 대역폭 활용률이 피크 대역폭 증가에 따라 감소 — 메모리 병목 외에 launch-side 오버헤드가 존재함을 CUDA Graphs A/B 실험으로 분리.

한계·조건

  • 범위batch-1 decode만 다루며, cloud LLM serving의 batch-32 이상과는 다른 특성.
  • 재현성코드 및 상세 설정은 논문 내 공개, CUDA Graphs 실험은 10회 신규 세션 기반.

편집자 한 줄

물리 AI 배포 시 GPU 선택이 단순 대역폭 스펙만으로 결정되지 않음을 보여주는 실용적 분석입니다.

  • #physical-ai
  • #inference
  • #gpu
  • #memory-bandwidth
  • #cuda-graphs
Josef Chen
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —