Papers·1개월 전

CUA-Gym: 검증 가능한 보상으로 컴퓨터 사용 에이전트 훈련 — 110개 환경에서 32K RLVR 데이터 합성

Qwen 팀이 컴퓨터 사용 에이전트(CUA)를 위한 RLVR(검증 가능한 보상 강화학습) 데이터를 대규모로 합성하는 파이프라인 CUA-Gym을 공개했습니다. Generator-Discriminator-Orchestrator 구조로 태스크·환경·보상 함수를 함께 생성하고, LLM 투표와 롤아웃으로 품질을 필터링합니다. 110개 환경에서 32,112개의 검증된 RLVR 튜플을 구축했으며, 이 데이터로 GSPO 학습한 CUA-Gym-A3B/A17B는 OSWorld-Verified에서 각각 62.1%, 72.6%를 기록해 기존 오픈소스 CUA를 능가했습니다. WebArena에서도 성능 전이를 확인했으며, 전체 파이프라인과 데이터셋, 환경, 모델을 오픈소스로 공개할 예정입니다.

Qwen 팀이 컴퓨터 사용 에이전트(CUA)를 위한 검증 가능한 보상 강화학습(RLVR) 데이터를 대규모로 합성하는 파이프라인 CUA-Gym을 공개했습니다.

핵심 결론

벤치마크 — OSWorld-Verified에서 CUA-Gym-A3B 62.1%, CUA-Gym-A17B 72.6% 기록. 기존 오픈소스 CUA 대비 큰 폭 개선.
전이 — WebArena에서도 성능 향상 확인 — 학습 환경에 과적합되지 않았습니다.
데이터 규모 — 110개 환경에서 32,112개의 검증된 RLVR 튜플 구축. 환경 다양성과 데이터 규모에 따라 성능이 부드럽게 증가.

방법

파이프라인 — Generator가 초기/골든 환경 상태를 생성하고, Discriminator가 태스크 명세로부터 보상 함수를 작성. Orchestrator가 반복적으로 조정.
품질 필터 — LLM 다수결 투표와 에이전트 롤아웃을 결합한 최종 필터로 태스크별 적대적 루프 없이도 고품질 확보.
환경 합성 — 실제 소프트웨어 사용 분포에 기반한 고충실도 모의 웹 애플리케이션 제품군 CUA-Gym-Hub를 추가로 합성해 데이터 규모를 확장.

한계·조건

환경 범위 — 110개 환경은 주로 웹 기반 태스크에 집중되어 있으며, 데스크톱·모바일 등 다른 도메인으로의 일반화는 추가 검증 필요.
오픈소스 — 전체 파이프라인, 데이터셋, 환경, 모델을 공개 예정 — 재현성에 유리합니다.

편집자 한 줄

RLVR 데이터 부족이 CUA 발전의 병목이었는데, 이 파이프라인은 그 병목을 합성 데이터로 해소한 점이 인상적입니다. 환경 합성의 충실도와 전이 성능이 실제 배포에서도 유효할지 지켜볼 만합니다.

#reinforcement-learning
#computer-use
#rlvr
#qwen
#data-synthesis

Qwen

원문 보기 →

CUA-Gym: 검증 가능한 보상으로 컴퓨터 사용 에이전트 훈련 — 110개 환경에서 32K RLVR 데이터 합성

핵심 결론

방법

한계·조건

Comments