Papers·1주 전
Video2GUI: 인터넷 영상에서 GUI 에이전트 학습 데이터 1200만 개 자동 추출 — 벤치마크 5~20% 향상

Peking University 팀이 인터넷 영상에서 GUI 상호작용 궤적을 자동 추출하는 Video2GUI 파이프라인과 1500개 앱·웹사이트를 아우르는 1200만 개 데이터셋 WildGUI를 공개했습니다. coarse-to-fine 필터링으로 튜토리얼 영상을 식별해 구조화된 에이전트 궤적으로 변환하며, Qwen2.5-VL과 Mimo-VL을 사전학습한 결과 여러 GUI grounding·action 벤치마크에서 5~20% 일관된 성능 향상을 보였습니다. 단, 영상 품질에 의존적이고 특정 GUI 스타일(모바일·데스크톱)에 편향될 가능성은 남아 있습니다.
- #gui-agents
- #multimodal
- #dataset
- #peking-university
- #video2gui
Peking University