Papers·1개월 전

물리 AI 추론, HBM 대역폭이 병목이 아니다 — H100 vs L4 디코드 지연 분석

물리 AI 시스템(로봇, 자율주행 등)의 batch-1 autoregressive decode에서 HBM 대역폭이 병목이라는 통념을 재검토한 논문. Qwen-2.5-7B 기준 L4는 이론적 메모리 한계의 81%에 도달하지만 H100은 27%에 그쳐, 빠른 메모리가 비례적 지연 감소로 이어지지 않음을 보였다. CUDA Graphs 실험에서 H100은 1.259x, L4는 1.028x 개선에 그쳐 launch-side 오버헤드가 고속 GPU에서 두드러짐을 확인했다. 양자화 경로도 예상만큼 효과적이지 않아, bnb-nf4는 59.36ms/step, AutoAWQ+Marlin은 45.24ms/step으로 bf16 대비 절반 이하 개선에 그쳤다.

물리 AI 추론에서 HBM 대역폭이 병목이라는 통념을 재검토한 논문. batch-1 decode에서 빠른 GPU일수록 대역폭 활용률이 낮아지는 현상을 실험으로 입증했다.

핵심 결론

대역폭 활용률 — Qwen-2.5-7B, ctx=2048 기준 L4는 이론적 메모리 한계의 81%에 도달하지만 H100은 27%에 그침.
CUDA Graphs 효과 — H100에서 1.259x 개선, L4에서 1.028x — launch-side 오버헤드가 고속 GPU에서 두드러짐.
양자화 한계 — bnb-nf4 59.36ms/step, AutoAWQ+Marlin 45.24ms/step으로 bf16(62.32ms) 대비 예상만큼 개선되지 않음. GPTQ+ExLlamaV2만 17.36ms/step으로 유의미.

방법

실험 설정 — 7~8B급 GQA transformer 3종(Qwen-2.5-7B 등)을 H100, A100, L40S, L4에서 bf16 SDPA로 측정. context 길이 2048~16384, 총 44개 셀.
분석 — 메모리 대역폭 활용률이 피크 대역폭 증가에 따라 감소 — 메모리 병목 외에 launch-side 오버헤드가 존재함을 CUDA Graphs A/B 실험으로 분리.

한계·조건

범위 — batch-1 decode만 다루며, cloud LLM serving의 batch-32 이상과는 다른 특성.
재현성 — 코드 및 상세 설정은 논문 내 공개, CUDA Graphs 실험은 10회 신규 세션 기반.

편집자 한 줄

물리 AI 배포 시 GPU 선택이 단순 대역폭 스펙만으로 결정되지 않음을 보여주는 실용적 분석입니다.

#physical-ai
#inference
#gpu
#memory-bandwidth
#cuda-graphs

Josef Chen

원문 보기 →

물리 AI 추론, HBM 대역폭이 병목이 아니다 — H100 vs L4 디코드 지연 분석

핵심 결론

방법

한계·조건

Comments