← Back to feed
Papers·어제

NVIDIA, 추론 RL 후학습에서 speculative decoding 으로 rollout throughput 1.8x 개선 — 235B 에서는 2.5x speedup 예측

NVIDIA, 추론 RL 후학습에서 speculative decoding 으로 rollout throughput 1.8x 개선 — 235B 에서는 2.5x speedup 예측

NVIDIA 팀이 RL 후학습의 rollout 병목을 speculative decoding 으로 해결하는 방법을 NeMo-RL 에 구현했습니다. vLLM 백엔드 위에서 동기/비동기 파이프라인을 지원하며, MTP 헤드나 외부 draft 모델 등 다양한 speculation 메커니즘과 호환됩니다. 8B 규모 동기 RL 에서 rollout throughput 1.8x, 시뮬레이션 기반 235B 비동기 RL 에서는 2.5x end-to-end 속도 향상이 예상됩니다. 단, 이 수치는 시뮬레이션 추정치이며 실제 대규모 환경에서의 검증이 필요합니다.

NVIDIA

Comments

— 첫 댓글을 남겨보세요 —