Papers·1개월 전

OpenWebRL: 온라인 강화학습으로 학습한 시각 웹 에이전트, 4B 모델로 67% 성공률

Microsoft 연구진이 시각 웹 에이전트를 실제 웹사이트에서 온라인 다중 턴 RL로 학습하는 오픈 프레임워크 OpenWebRL을 공개했습니다. 0.4K 초기화 궤적과 2.2K RL 태스크만으로 OpenWebRL-4B는 Online-Mind2Web에서 67.0%, DeepShop에서 64.0% 성공률을 기록, 유사 규모의 오픈 에이전트를 크게 앞지르고 OpenAI CUA, Gemini CUA와 경쟁합니다. 단, 벤치마크가 제한적이고 실제 웹 환경의 변동성에 대한 추가 검증이 필요합니다.

Microsoft가 시각 웹 에이전트를 실제 웹사이트에서 온라인 RL로 학습하는 오픈 프레임워크 OpenWebRL을 발표했습니다.

핵심 결론

성능 — 4B 파라미터 모델로 Online-Mind2Web 67.0%, DeepShop 64.0% 성공률 — 기존 오픈 소스 SOTA를 갱신하고 일부 독점 시스템과 경쟁.
데이터 효율 — 초기화에 0.4K 궤적, RL에 2.2K 태스크만 사용해 매우 적은 데이터로 높은 성능을 달성했습니다.

방법

파이프라인 — 실시간 브라우저 인프라, 멀티모달 컨텍스트 관리, 궤적 수준 성공 판별, 효율적 다중 턴 정책 최적화를 포함한 전체 학습 파이프라인을 구축했습니다.
온라인 RL — 정적 데이터셋이 아닌 실제 웹사이트에서 에이전트가 직접 상호작용하며 RL로 정책을 개선합니다. 이는 텍스트 기반 에이전트에서 효과가 입증된 방식입니다.
초기화 후 오픈엔드 태스크로 RL을 수행하며, 태스크는 자동 생성되어 다양성을 확보합니다.

한계·조건

벤치마크 — Online-Mind2Web과 DeepShop 두 벤치마크에 국한되어 있으며, 더 다양한 실제 웹 환경에서의 일반화는 추가 검증이 필요합니다.
인프라 — 실시간 브라우저 인프라가 필요해 학습 비용이 만만치 않습니다. 코드와 데이터는 공개 예정입니다.

편집자 한 줄

적은 데이터로도 강력한 성능을 낸 점이 인상적입니다. 다만 벤치마크가 두 개뿐이라 범용성을 논하기엔 이릅니다.

#visual-web-agent
#reinforcement-learning
#microsoft
#open-source

Microsoft

원문 보기 →

OpenWebRL: 온라인 강화학습으로 학습한 시각 웹 에이전트, 4B 모델로 67% 성공률

핵심 결론

방법

한계·조건

Comments