Papers·6일 전
MobileForge: 주석 없이 모바일 GUI 에이전트 적응 — AndroidWorld 67.2% Pass@3

Kwai 팀이 주석 없는 모바일 GUI 에이전트 적응 시스템 MobileForge를 공개했습니다. MobileGym으로 실제 앱 상호작용 기반 작업 생성과 평가를 수행하고, HiFPO로 궤적·단계별 피드백·교정 힌트를 계층적 GRPO 업데이트로 연결해 Qwen3-VL-8B를 AndroidWorld에서 67.2% Pass@3까지 적응시켰습니다. 이는 주석 데이터로 학습된 GUI-Owl-1.5-8B(69.0%)에 근접한 수치이며, MobileForge로 추가 적응한 ForgeOwl-8B는 77.6%를 기록했습니다. 단, 평가는 AndroidWorld와 MobileWorld GUI-only split에 국한되어 있으며, 코드와 데이터는 추후 공개 예정입니다.
Kwai 팀이 주석 없이 모바일 GUI 에이전트를 실제 앱에 적응시키는 시스템 MobileForge를 제안했습니다.
핵심 결론
- 벤치 — AndroidWorld Pass@3에서 Qwen3-VL-8B를 67.2%까지 적응, 주석 기반 GUI-Owl-1.5-8B(69.0%)에 근접.
- 확장 — MobileForge로 추가 적응한 ForgeOwl-8B는 77.6% Pass@3, out-of-domain MobileWorld GUI-only split에서 41.0% 성공률.
방법
- MobileGym — 실제 모바일 앱 상호작용을 통해 작업 생성과 롤아웃 평가를 수행하는 환경.
- HiFPO — 궤적 결과, 단계별 과정 피드백, 교정 힌트를 계층적으로 결합해 hint-contextualized step-level GRPO 업데이트로 변환.
한계·조건
- 평가 범위 — AndroidWorld와 MobileWorld GUI-only split으로 한정, 실제 다양한 앱 생태계 일반화는 추가 검증 필요.
- 코드·데이터 — GitHub 공개 예정 — 현재는 사이트에서 abstract만 확인 가능.
편집자 한 줄
주석 없이도 주석 기반 모델에 근접한 성능을 낸 점은 인상적이지만, 실제 앱 업데이트나 다양한 UI 패턴에서도 유지될지는 지켜봐야겠네요.
- #mobile-gui-agent
- #annotation-free
- #reinforcement-learning
- #kwai
kwai