Papers·어제
ToolCUA: GUI-Tool 혼합 액션 공간에서 경로 최적화하는 에이전트 — OSWorld-MCP 46.85% 정확도, 베이스라인 대비 66% 개선

TongyiLab 연구팀이 GUI 액션(클릭, 타이핑)과 API 기반 툴 호출을 혼합한 액션 공간에서 최적의 경로를 학습하는 에이전트 ToolCUA를 공개했습니다. 핵심은 기존의 정적 GUI 궤적을 재활용해 툴 라이브러리를 합성하는 Interleaved GUI-Tool Trajectory Scaling Pipeline과, 툴 전환 지점에서의 결정을 강화하기 위한 Tool-Bootstrapped GUI RFT(온라인 RL 포함)입니다. OSWorld-MCP 벤치마크에서 46.85% 정확도로 베이스라인 대비 약 66% 상대 개선을 기록했으며, GUI-only 설정보다 3.9% 높아 혼합 액션 공간의 효과를 입증했습니다. 단, 실험 환경이 고충실도 시뮬레이터 기반이라 실제 OS에서의 일반화는 추가 검증이 필요합니다.
- #computer-use
- #gui-agent
- #tool-calling
- #reinforcement-learning
- #tongyilab
TongyiLab