← Back to feed
Papers·1주 전

ReVision: 스크린샷 중복 패치 제거로 토큰 46% 절감, CUA 성능 3% 향상

ReVision: 스크린샷 중복 패치 제거로 토큰 46% 절감, CUA 성능 3% 향상

Microsoft Research 팀이 컴퓨터 사용 에이전트(CUA)의 시각 토큰 비효율을 해결하는 ReVision을 제안했습니다. 연속 스크린샷 간 중복 시각 패치를 학습된 패치 선택기로 제거해, 5개 히스토리 스크린샷 처리 시 토큰 사용량을 평균 46% 줄이면서 성공률을 3% 개선했습니다. OSWorld, WebTailBench, AgentNetBench 세 벤치마크에서 Qwen2.5-VL-7B 기반으로 검증했으며, 중복 제거 덕분에 더 긴 궤적을 처리할수록 성능이 지속 향상되는 점이 흥미롭습니다.

Microsoft Research가 CUA의 시각 토큰 폭발 문제를 해결하는 ReVision을 공개했습니다.

핵심 결론

  • 벤치OSWorld, WebTailBench, AgentNetBench에서 5개 히스토리 스크린샷 처리 시 토큰 46% 절감, 성공률 3% 향상.
  • 모델Qwen2.5-VL-7B 기반, 추가 학습으로 패치 선택기 도입.

방법

  • 패치 선택기연속 스크린샷 간 패치 표현을 비교해 중복 시각 패치를 제거하는 학습된 선택기를 사용.
  • 공간 구조제거 후에도 모델이 요구하는 공간 구조(spatial structure)를 유지하도록 설계.

한계·조건

  • 환경Qwen2.5-VL-7B 단일 모델로만 검증, 다른 VL 모델 일반화는 미확인.
  • 코드논문 내 코드 공개 여부 미기재 — Hugging Face papers 링크만 제공.

편집자 한 줄

히스토리 길이가 길수록 성능이 계속 오른다는 점이 인상적이네요. 다만 7B 모델에 국한된 결과라, 더 큰 모델에서도 같은 추세가 유지될지 궁금합니다.

  • #computer-use-agent
  • #visual-token-efficiency
  • #microsoft-research
  • #revision
  • #gui-agent
Microsoft Research
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —