Papers·2주 전
UI-KOBE: 경량 모바일 GUI 에이전트를 위한 앱 지식 그래프 프레임워크 — 태스크 성공률 15% 향상

UI-KOBE는 경량 모바일 GUI 에이전트가 앱별 지식 그래프를 활용해 태스크 성공률을 15% 높인 프레임워크입니다. 그래프는 UI 상태 노드와 전환 엣지로 구성되며, 런타임에 에이전트가 현재 노드를 식별해 사전 정의된 행동(셀프루프, 전환, 완료, fallback)을 선택하도록 돕습니다. 단, 그래프 구축에 오프라인 탐색이 필요하고, 앱 구조가 동적인 경우 그래프 갱신 비용이 추가로 듭니다.
경량 GUI 에이전트가 앱 지식 그래프를 외부 가이드로 삼아 복잡한 모바일 태스크를 더 안정적으로 수행합니다.
핵심 결론
- 태스크 성공률 — 경량 모델 기준 기존 대비 평균 15% 향상 (AndroidEnv 30개 태스크).
- 모델 — MobileBERT 기반 200M 파라미터 에이전트로, GPT-4V 기반 대비 지연 1/10 수준.
방법
- 지식 그래프 구축 — UI-KOBE가 앱을 자율 탐색하며 UI 상태 노드와 전환 엣지를 추출, 앱별 그래프를 만듭니다.
- 런타임 추론 — 에이전트는 현재 스크린샷을 그래프 노드에 매핑한 후, 해당 노드에 연결된 행동(셀프루프, 전환, 완료, fallback) 중 선택합니다.
- 그래프는 외부 메모리 역할을 해 경량 모델의 계획 부담을 덜어주는 구조네요.
한계·조건
- 오프라인 탐색 — 앱별 그래프 구축에 사전 탐색이 필요하며, 앱 업데이트 시 그래프 갱신이 필요합니다.
- 벤치마크 — AndroidEnv 기반 30개 태스크로 평가, 실제 기기 다양성은 반영되지 않았습니다.
- 코드 — GitHub 공개 예정 (현재 논문 내 상세 알고리즘만 공개).
편집자 한 줄
그래프 기반 가이드는 경량 모델의 약점을 잘 보완하지만, 앱 구조가 자주 바뀌는 환경에서는 유지보수 비용을 고려해야겠네요.
- #mobile-gui-agent
- #knowledge-graph
- #lightweight-model
- #ui-kobe
Yuxiang Chai