← Back to feed
Papers·6일 전

AstraFlow: 데이터플로우 기반 RL 시스템 — 멀티-폴리시 에이전트 학습 2.7x 가속

AstraFlow: 데이터플로우 기반 RL 시스템 — 멀티-폴리시 에이전트 학습 2.7x 가속

CMU 팀이 기존 trainer-centered 제어 대신 데이터플로우 중심 추상화를 도입한 RL 시스템 AstraFlow를 제안했습니다. 롤아웃, 데이터플로우 관리, 학습을 독립 컴포넌트로 분리해 멀티-폴리시 협업 학습, 탄력적 확장, 이기종·크로스-리전 실행을 시스템 코드 변경 없이 지원합니다. 수학, 코드, 검색, AgentBench 워크로드에서 기존 RL 시스템 대비 정확도는 동등 이상이면서 학습 시간을 2.7x 단축했습니다.

  • #reinforcement-learning
  • #agentic-llm
  • #dataflow
  • #cmu
  • #multi-policy
Carnegie Mellon University

Comments

— 첫 댓글을 남겨보세요 —