Papers·6일 전
MemGUI-Agent: 장기 모바일 GUI 태스크를 위한 능동적 컨텍스트 관리 — 8B 모델로 SOTA

Kwai 팀이 장기 모바일 GUI 태스크에서 ReAct 스타일의 수동적 히스토리 누적 대신 컨텍스트를 능동적으로 관리하는 MemGUI-Agent를 제안했습니다. 핵심은 Context-as-Action(ConAct)으로, UI 액션과 동일한 정책이 컨텍스트 관리 액션을 직접 출력하도록 설계되어 프롬프트 폭발과 중요 정보 희석을 방지합니다. 2,956개 궤적의 MemGUI-3K 데이터셋으로 8B 모델을 학습시킨 MemGUI-8B-SFT는 MemGUI-Bench에서 동급 최고 성능을 달성했으며, MobileWorld 벤치마크에서도 일반화됩니다.
Kwai 팀이 장기 모바일 GUI 태스크에서 프롬프트 폭발 문제를 해결하는 능동적 컨텍스트 관리 에이전트 MemGUI-Agent를 공개했습니다.
핵심 결론
- 벤치 — MemGUI-Bench에서 8B 모델 기준 SOTA 달성, MobileWorld 벤치마크에서도 일반화 성능 확인.
- 데이터 — 2,956개 궤적으로 구성된 MemGUI-3K 데이터셋을 구축해 SFT 및 오프라인 분석에 활용.
방법
- ConAct — 컨텍스트 관리를 UI 액션과 동일한 정책이 출력하는 일급 액션으로 정의, 세 가지 구조화된 필드(접힌 액션 히스토리, 접힌 UI 상태, 최근 단계 기록)를 유지.
- 기존 ReAct 방식이 매 단계마다 히스토리를 누적해 프롬프트가 폭발하는 문제를, ConAct는 컨텍스트를 능동적으로 압축·정리해 해결합니다.
한계·조건
- 규모 — 8B 모델로만 실험, 더 큰 모델에서의 효과는 추가 검증 필요.
- 데이터 — MemGUI-3K는 특정 환경에서 수집되어 모든 앱/태스크에 일반화된다고 보장하기 어렵습니다.
- 공개 — 코드, 데이터, 학습된 모델은 https://memgui-agent.github.io/ 에서 공개 예정.
편집자 한 줄
컨텍스트 관리를 액션 공간에 통합한 설계가 깔끔하고, 8B 모델에서도 효과가 나온 점이 인상적입니다.
- #mobile-gui-agent
- #context-management
- #mllm
- #kwai
kwai