Papers·6일 전
AsyncWebRL — 비동기 RL + 정규화 수정으로 웹 에이전트 학습 2.9배 가속, 성능 +5.8%

Microsoft 팀이 웹 에이전트용 비동기 RL 파이프라인 AsyncWebRL을 공개했습니다. 시스템 측면에서 동기식 RL의 GPU 유휴 시간을 없애 rollout·gradient·policy 갱신을 중첩시켜 기존 WebGym 대비 최대 2.9배 학습 처리량 향상을 달성했고, 알고리즘 측면에서는 multi-step GRPO의 per-trajectory 정규화(1/|τ_i|)가 실패 궤적을 길게 만드는 원인임을 밝혀 상수 정규화(1/k)로 교체했습니다. 그 결과 WebGym OOD 테스트에서 기존 SOTA(42.9%) 대비 +5.8% 상대 개선, Hard 난이도에서는 +48%의 큰 폭 향상을 보였습니다.
Microsoft 연구진이 웹 에이전트 학습의 두 가지 비효율 — 동기 RL의 GPU 유휴 시간과 GRPO 정규화로 인한 긴 궤적 — 을 동시에 해결한 AsyncWebRL을 제안했습니다.
핵심 결론
- 성능 — WebGym OOD 테스트에서 기존 SOTA 42.9% 대비 +5.8% 상대 개선 (Medium +42%, Hard +48%).
- 속도 — 비동기 설계로 동기식 WebGym 대비 end-to-end 학습 처리량 최대 2.9배 향상.
- 공개 — 코드와 설정이 모두 공개된 오픈소스 SOTA입니다.
방법
- 비동기 시스템 — rollout, gradient update, policy refresh를 iteration 간에 중첩시키고, everlasting rollout pool과 경량 screenshot 처리로 GPU 유휴를 최소화했습니다.
- 정규화 수정 — Multi-step GRPO의 per-trajectory 정규화(1/|τ_i|)가 실패 궤적(길고 실패)의 음수 gradient를 낮춰 verbose memory schema를 생성하는 원인임을 발견, 상수 1/k로 대체해 궤적 길이를 줄이고 성공률을 유지했습니다.
한계·조건
- 환경 — 실험은 WebGym 환경에서만 수행되었으며, 다른 웹 에이전트 벤치마크로의 일반화는 추가 검증이 필요합니다.
- 리소스 — 비동기 설계는 여러 GPU를 가정하므로 단일 GPU 환경에서는 이점이 제한적일 수 있습니다.
편집자 한 줄
정규화 항 하나를 바꾼 간단한 수정이 궤적 효율과 성능에 큰 영향을 준 점이 인상적입니다.
- #reinforcement-learning
- #web-agent
- #microsoft
- #grpo
Microsoft