Papers·5일 전
물리 AI 추론, HBM 대역폭이 병목이 아니다 — H100 vs L4 디코드 지연 분석

물리 AI 시스템(로봇, 자율주행 등)의 batch-1 autoregressive decode에서 HBM 대역폭이 병목이라는 통념을 재검토한 논문. Qwen-2.5-7B 기준 L4는 이론적 메모리 한계의 81%에 도달하지만 H100은 27%에 그쳐, 빠른 메모리가 비례적 지연 감소로 이어지지 않음을 보였다. CUDA Graphs 실험에서 H100은 1.259x, L4는 1.028x 개선에 그쳐 launch-side 오버헤드가 고속 GPU에서 두드러짐을 확인했다. 양자화 경로도 예상만큼 효과적이지 않아, bnb-nf4는 59.36ms/step, AutoAWQ+Marlin은 45.24ms/step으로 bf16 대비 절반 이하 개선에 그쳤다.
물리 AI 추론에서 HBM 대역폭이 병목이라는 통념을 재검토한 논문. batch-1 decode에서 빠른 GPU일수록 대역폭 활용률이 낮아지는 현상을 실험으로 입증했다.
핵심 결론
- 대역폭 활용률 — Qwen-2.5-7B, ctx=2048 기준 L4는 이론적 메모리 한계의 81%에 도달하지만 H100은 27%에 그침.
- CUDA Graphs 효과 — H100에서 1.259x 개선, L4에서 1.028x — launch-side 오버헤드가 고속 GPU에서 두드러짐.
- 양자화 한계 — bnb-nf4 59.36ms/step, AutoAWQ+Marlin 45.24ms/step으로 bf16(62.32ms) 대비 예상만큼 개선되지 않음. GPTQ+ExLlamaV2만 17.36ms/step으로 유의미.
방법
- 실험 설정 — 7~8B급 GQA transformer 3종(Qwen-2.5-7B 등)을 H100, A100, L40S, L4에서 bf16 SDPA로 측정. context 길이 2048~16384, 총 44개 셀.
- 분석 — 메모리 대역폭 활용률이 피크 대역폭 증가에 따라 감소 — 메모리 병목 외에 launch-side 오버헤드가 존재함을 CUDA Graphs A/B 실험으로 분리.
한계·조건
- 범위 — batch-1 decode만 다루며, cloud LLM serving의 batch-32 이상과는 다른 특성.
- 재현성 — 코드 및 상세 설정은 논문 내 공개, CUDA Graphs 실험은 10회 신규 세션 기반.
편집자 한 줄
물리 AI 배포 시 GPU 선택이 단순 대역폭 스펙만으로 결정되지 않음을 보여주는 실용적 분석입니다.
- #physical-ai
- #inference
- #gpu
- #memory-bandwidth
- #cuda-graphs
Josef Chen