← Back to feed
Papers·6일 전

MobileForge: 주석 없이 모바일 GUI 에이전트 적응 — AndroidWorld 67.2% Pass@3

MobileForge: 주석 없이 모바일 GUI 에이전트 적응 — AndroidWorld 67.2% Pass@3

Kwai 팀이 주석 없는 모바일 GUI 에이전트 적응 시스템 MobileForge를 공개했습니다. MobileGym으로 실제 앱 상호작용 기반 작업 생성과 평가를 수행하고, HiFPO로 궤적·단계별 피드백·교정 힌트를 계층적 GRPO 업데이트로 연결해 Qwen3-VL-8B를 AndroidWorld에서 67.2% Pass@3까지 적응시켰습니다. 이는 주석 데이터로 학습된 GUI-Owl-1.5-8B(69.0%)에 근접한 수치이며, MobileForge로 추가 적응한 ForgeOwl-8B는 77.6%를 기록했습니다. 단, 평가는 AndroidWorld와 MobileWorld GUI-only split에 국한되어 있으며, 코드와 데이터는 추후 공개 예정입니다.

Kwai 팀이 주석 없이 모바일 GUI 에이전트를 실제 앱에 적응시키는 시스템 MobileForge를 제안했습니다.

핵심 결론

  • 벤치AndroidWorld Pass@3에서 Qwen3-VL-8B를 67.2%까지 적응, 주석 기반 GUI-Owl-1.5-8B(69.0%)에 근접.
  • 확장MobileForge로 추가 적응한 ForgeOwl-8B는 77.6% Pass@3, out-of-domain MobileWorld GUI-only split에서 41.0% 성공률.

방법

  • MobileGym실제 모바일 앱 상호작용을 통해 작업 생성과 롤아웃 평가를 수행하는 환경.
  • HiFPO궤적 결과, 단계별 과정 피드백, 교정 힌트를 계층적으로 결합해 hint-contextualized step-level GRPO 업데이트로 변환.

한계·조건

  • 평가 범위AndroidWorld와 MobileWorld GUI-only split으로 한정, 실제 다양한 앱 생태계 일반화는 추가 검증 필요.
  • 코드·데이터GitHub 공개 예정 — 현재는 사이트에서 abstract만 확인 가능.

편집자 한 줄

주석 없이도 주석 기반 모델에 근접한 성능을 낸 점은 인상적이지만, 실제 앱 업데이트나 다양한 UI 패턴에서도 유지될지는 지켜봐야겠네요.

  • #mobile-gui-agent
  • #annotation-free
  • #reinforcement-learning
  • #kwai
kwai
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —