← Back to feed
Papers·1개월 전

OmniGUI: GUI 에이전트를 위한 첫 번째 옴니모달 벤치마크 — 오디오+비디오 포함 시 정확도 30% 이상 하락

OmniGUI: GUI 에이전트를 위한 첫 번째 옴니모달 벤치마크 — 오디오+비디오 포함 시 정확도 30% 이상 하락

OmniGUI는 정적 스크린샷만 평가하던 기존 GUI 벤치마크의 한계를 넘어, 각 액션 단계마다 이미지·오디오·비디오 클립이 연속적으로 interleaved된 멀티모달 입력을 제공하는 최초의 벤치마크입니다. 29개 앱, 709개 에피소드(2,579 액션 스텝)로 구성되며, 현재 옴니모달 기반 모델들은 시각적 태스크에서는 준수하지만 동기화된 시간적·청각 신호가 필요한 환경에서 성능이 크게 저하됩니다. 특히 작업과 무관한 환경 소음이 cross-modal interference를 유발하는 것이 주요 병목으로 확인되었습니다.

  • #gui-agent
  • #multimodal
  • #benchmark
  • #omnimodal
OmniGUI

Comments

— 첫 댓글을 남겨보세요 —