Papers·1개월 전

MobileGym: 브라우저 기반 모바일 환경에서 온라인 RL — Qwen3-VL-4B, 256개 태스크 +12.8%p

MobileGym은 브라우저에서 동작하는 경량 모바일 UI 환경으로, 구조화된 JSON 상태 기반의 결정론적 판정과 저비용 병렬 롤아웃을 통해 온라인 RL을 가능하게 했습니다. Qwen3-VL-4B-Instruct에 GRPO를 적용한 Sim-to-Real 사례에서 256개 테스트 태스크 기준 +12.8%p 향상, 실제 기기에서는 시뮬레이션 학습 이득의 95.1%를 유지했습니다. 28개 앱, 416개 파라미터화된 태스크 템플릿을 제공하며, 단일 서버로 수백 개 인스턴스를 운영할 수 있는 점이 특징입니다.

MobileGym은 브라우저 기반의 경량 모바일 환경으로, 결정론적 상태 판정과 저비용 병렬 롤아웃을 통해 온라인 RL을 현실적으로 만든 프레임워크입니다.

핵심 결론

성능 — Qwen3-VL-4B-Instruct + GRPO, 256개 테스트 태스크에서 +12.8%p 향상.
실기기 전이 — 59개 실제 기기 태스크에서 시뮬레이션 학습 이득의 95.1% 유지.
벤치마크 — MobileGym-Bench: 28개 앱, 416개 파라미터화된 태스크 템플릿 (256 테스트, 160 학습).

방법

환경 — 브라우저 기반, 구조화된 JSON으로 전체 상태를 캡처·설정·포크·비교.
병렬화 — 단일 서버에서 수백 개 인스턴스 호스팅 가능, 인스턴스당 약 400MB 메모리, 약 3초 콜드 스타트.
판정 — 결정론적 상태 기반 판정으로 dense RL 보상과 평가를 동시에 제공, 자유 텍스트 매칭 실패 없음.
태스크 정의 — 계층적 상태 모델과 선언적 태스크 정의 프레임워크로 대규모 태스크 생성 실용화.

한계·조건

환경 — 브라우저 기반으로 실제 기기와 완전히 동일하지 않음 — Sim-to-Real 격차 존재.
리소스 — 인스턴스당 400MB 메모리, 수백 개 병렬 운영에는 충분한 서버 메모리 필요.
코드 — 프로젝트 페이지(mobilegym.github.io)에서 추가 정보 제공, 코드 공개 여부는 확인 필요.

편집자 한 줄

온라인 RL을 모바일 UI 에이전트에 적용하려는 시도 자체가 드문데, 결정론적 판정과 저비용 병렬화로 현실적인 파이프라인을 만든 점이 인상적입니다.

#mobile-ui
#reinforcement-learning
#sim-to-real
#qwen
#grpo

Dingbang Wu

원문 보기 →

MobileGym: 브라우저 기반 모바일 환경에서 온라인 RL — Qwen3-VL-4B, 256개 태스크 +12.8%p

핵심 결론

방법

한계·조건

Comments