← Back to feed
Papers·2주 전

UI-KOBE: 경량 모바일 GUI 에이전트를 위한 앱 지식 그래프 프레임워크 — 태스크 성공률 15% 향상

UI-KOBE: 경량 모바일 GUI 에이전트를 위한 앱 지식 그래프 프레임워크 — 태스크 성공률 15% 향상

UI-KOBE는 경량 모바일 GUI 에이전트가 앱별 지식 그래프를 활용해 태스크 성공률을 15% 높인 프레임워크입니다. 그래프는 UI 상태 노드와 전환 엣지로 구성되며, 런타임에 에이전트가 현재 노드를 식별해 사전 정의된 행동(셀프루프, 전환, 완료, fallback)을 선택하도록 돕습니다. 단, 그래프 구축에 오프라인 탐색이 필요하고, 앱 구조가 동적인 경우 그래프 갱신 비용이 추가로 듭니다.

경량 GUI 에이전트가 앱 지식 그래프를 외부 가이드로 삼아 복잡한 모바일 태스크를 더 안정적으로 수행합니다.

핵심 결론

  • 태스크 성공률경량 모델 기준 기존 대비 평균 15% 향상 (AndroidEnv 30개 태스크).
  • 모델MobileBERT 기반 200M 파라미터 에이전트로, GPT-4V 기반 대비 지연 1/10 수준.

방법

  • 지식 그래프 구축UI-KOBE가 앱을 자율 탐색하며 UI 상태 노드와 전환 엣지를 추출, 앱별 그래프를 만듭니다.
  • 런타임 추론에이전트는 현재 스크린샷을 그래프 노드에 매핑한 후, 해당 노드에 연결된 행동(셀프루프, 전환, 완료, fallback) 중 선택합니다.
  • 그래프는 외부 메모리 역할을 해 경량 모델의 계획 부담을 덜어주는 구조네요.

한계·조건

  • 오프라인 탐색앱별 그래프 구축에 사전 탐색이 필요하며, 앱 업데이트 시 그래프 갱신이 필요합니다.
  • 벤치마크AndroidEnv 기반 30개 태스크로 평가, 실제 기기 다양성은 반영되지 않았습니다.
  • 코드GitHub 공개 예정 (현재 논문 내 상세 알고리즘만 공개).

편집자 한 줄

그래프 기반 가이드는 경량 모델의 약점을 잘 보완하지만, 앱 구조가 자주 바뀌는 환경에서는 유지보수 비용을 고려해야겠네요.

  • #mobile-gui-agent
  • #knowledge-graph
  • #lightweight-model
  • #ui-kobe
Yuxiang Chai
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —