Papers·1개월 전

PAGER: GUI 에이전트의 정밀 기하학적 태스크에서 4.1x 성공률 향상 — Semantic-Execution Gap 해소

OpenDataLab 팀이 GUI 에이전트가 점 단위 정밀도를 요하는 기하학적 구성 태스크에서 기존 모델의 한계를 지적하고, 이를 해결하는 PAGER 에이전트를 제안했습니다. 일반 멀티모달 모델은 액션 타입 정확도 88% 이상을 기록하면서도 태스크 성공률은 6% 미만으로, 의미 이해와 실행 간 큰 격차(Semantic-Execution Gap)가 존재합니다. PAGER는 의존성 구조를 고려한 계획과 픽셀 수준 실행을 분리하고, 정밀 정렬 강화학습을 적용해 GUI 특화 에이전트의 스텝 성공률을 9% 미만에서 62% 이상으로 끌어올렸습니다. 다만 4,906개 문제와 224K 액션으로 구성된 PAGE Bench에서의 평가이며, 실제 다양한 환경으로의 일반화는 추가 검증이 필요합니다.

#gui-agent
#vlms
#precision
#pager
#pixellevel

OpenDataLab

원문 보기 →

PAGER: GUI 에이전트의 정밀 기하학적 태스크에서 4.1x 성공률 향상 — Semantic-Execution Gap 해소

Comments