Papers·6일 전
AstraFlow: 데이터플로우 기반 RL 시스템 — 멀티-폴리시 에이전트 학습 2.7x 가속

CMU 팀이 기존 trainer-centered 제어 대신 데이터플로우 중심 추상화를 도입한 RL 시스템 AstraFlow를 제안했습니다. 롤아웃, 데이터플로우 관리, 학습을 독립 컴포넌트로 분리해 멀티-폴리시 협업 학습, 탄력적 확장, 이기종·크로스-리전 실행을 시스템 코드 변경 없이 지원합니다. 수학, 코드, 검색, AgentBench 워크로드에서 기존 RL 시스템 대비 정확도는 동등 이상이면서 학습 시간을 2.7x 단축했습니다.
- #reinforcement-learning
- #agentic-llm
- #dataflow
- #cmu
- #multi-policy
Carnegie Mellon University