Papers·2주 전
Fast-dDrive: 블록 확산 VLA로 자율주행 추론 12배 가속, L2 오차 0.32m

NVIDIA가 제안한 Fast-dDrive는 블록 확산(block-diffusion) 기반의 Vision-Language-Action 모델로, WOD-E2E에서 SOTA ADE를 달성하고 nuScenes에서 L2 오차를 0.32m로 22% 개선했습니다. 구조적 토큰을 섹션별로 고정하고 인과 순서를 강제하는 학습법과 Scaffold Speculative Decoding을 통해 AR 수준의 품질을 유지하면서도 SGLang 통합 시 12배 추론 속도 향상을 보였습니다. 단, 실험은 8x A100 기준이며, 단일 GPU 환경에서의 속도 이득은 추가 검증이 필요합니다.
NVIDIA가 블록 확산 VLA 모델 Fast-dDrive를 통해 자율주행 추론 속도와 정확성 간 트레이드오프를 크게 개선했습니다.
핵심 결론
- 성능 — WOD-E2E에서 ADE@3s 및 ADE@5s SOTA, nuScenes L2 오차 0.32m (22% 개선).
- 속도 — SGLang 통합 시 AR baseline 대비 12배 throughput 향상.
방법
- 블록 확산 — JSON-like 구조를 섹션 단위로 양방향 정제하되, 섹션 간 인과 순서(perceive→plan→act)를 강제하는 block-diffusion VLA.
- Scaffold Speculative Decoding — 구조적 토큰을 scaffold로 고정하고 draft model로 생성해 AR과 동등한 품질을 높은 처리량으로 달성.
- Test-time scaling — 단일 shared-prefix KV cache에서 N개 rollout을 fork하고 평균내어 분산을 낮추는 저비용 기법.
한계·조건
- 환경 — 벤치마크는 8x A100 기준이며, 단일 GPU나 엣지 디바이스에서의 효율은 추가 검증 필요.
- 코드 — 현재 논문 및 기술 보고서만 공개, 코드 및 모델 가중치는 미공개 상태.
편집자 한 줄
블록 확산이 driving VLA의 인과성과 효율을 동시에 잡는 흥미로운 접근입니다. 다만 JSON 구조에 강하게 의존하는 점이 다른 도메인으로의 일반화에 제약이 될 수 있겠네요.
- #autonomous-driving
- #vla
- #diffusion
- #nvidia
- #speculative-decoding
NVIDIA