← Back to feed
Papers·2일 전

FuriosaAI, RL rollout 가속 시스템 EfficientRollout 공개 — self-SD 로 지연 19.6% 단축

FuriosaAI, RL rollout 가속 시스템 EfficientRollout 공개 — self-SD 로 지연 19.6% 단축

FuriosaAI 팀이 RL rollout 의 autoregressive 병목을 speculative decoding 으로 해결하는 EfficientRollout 을 제안했습니다. evolving policy 에 맞춰 target model 에서 quantized drafter 를 추출(self-SD)하고, acceptance-aware draft-length adaptation 으로 compute-bound 구간에서만 speculation 을 활성화합니다. AR rollout 대비 latency 를 최대 19.6%, end-to-end 는 12.7% 줄이면서 모델 품질은 유지했습니다.

RL post-training 에서 rollout 생성이 전체 지연의 병목인데, speculative decoding 을 적용하려면 evolving policy 와 memory-bound regime 문제를 풀어야 합니다.

핵심 결론

  • 태스크RL rollout 가속 — AR rollout baseline 대비 rollout latency 최대 19.6%, end-to-end 12.7% 감소.
  • 품질최종 모델 성능(벤치마크 점수)은 유지됨.

방법

  • self-SDtarget model 자체를 quantized drafter 로 사용 — 별도 drafter 학습 없이 evolving policy 에 자연스럽게 추종.
  • 시스템 인식acceptance-aware draft-length adaptation 으로 compute-bound regime 에서만 speculation 을 켜고, memory-bound 구간에서는 끄는 toggle policy.
  • draft budget 을 drafter quality 변화에 맞춰 동적 조절해 오버헤드를 최소화한 점이 특이합니다.

한계·조건

  • 환경FuriosaAI 자체 하드웨어(NPU)에서 검증 — GPU 대비 추세는 유사할 것으로 예상하나 수치는 다를 수 있음.
  • 코드현재 논문 공개 단계, 코드는 아직 미공개.
  • 롤아웃 길이가 짧거나 batch size 가 큰 경우 이점이 줄어든다는 점을 언급합니다.

편집자 한 줄

self-SD + 시스템 인식 토글 조합은 RL 파이프라인에 실용적으로 붙일 만한 설계네요. 다만 FuriosaAI 특화 최적화가 포함되어 있어 이식성은 추가 확인이 필요합니다.

  • #reinforcement-learning
  • #speculative-decoding
  • #rollout
  • #furiosaai
FuriosaAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —