Papers·1주 전
VISTA: GRPO 기반 GUI Grounding — 여러 시점으로 rollout 다양화, ScreenSpot-Pro 55.5→63.4

ZJU Scaling Logger 팀이 GRPO 기반 GUI Grounding 훈련 프레임워크 VISTA를 제안했습니다. 기존 GRPO는 단일 스크린샷에서 rollout을 샘플링해 어려운 인스턴스에서 그룹 전체가 실패하거나 쉬운 인스턴스에서 모두 성공하는 문제가 있었는데, VISTA는 동일 GUI 인스턴스의 여러 시점(크롭)에서 rollout을 비교해 상대적 이점을 살립니다. ScreenSpot-Pro에서 Qwen3-VL 4B를 55.5→63.4로, 8B를 52.7→65.8로, 30B-A3B를 53.7→67.0으로 개선했습니다. 단, 이 방법은 추가적인 뷰 생성 비용이 들고, oracle anchor가 최대 보상 rollout에만 활성화되는 조건부 설계입니다.
ZJU Scaling Logger가 GRPO 기반 GUI Grounding 훈련에서 rollout 다양성을 높이는 VISTA 프레임워크를 공개했습니다.
핵심 결론
- 벤치 — ScreenSpot-Pro에서 Qwen3-VL 4B/8B/30B-A3B 각각 55.5→63.4, 52.7→65.8, 53.7→67.0으로 grounding 정확도 향상.
- 강건성 — 최악 시점 정확도(worst-view accuracy)와 예측 변동률(prediction flip rate) 모두 개선.
방법
- 다중 뷰 그룹 — 동일 GUI 인스턴스의 타겟 요소를 포함한 여러 크롭 뷰를 생성, 각 뷰에서 rollout을 샘플링해 그룹을 구성.
- Self-verified anchor — 최대 보상 rollout을 oracle 답변으로 삼아 advantage-weighted loss로 최적화, 그룹 baseline에서 제외해 안정화.
한계·조건
- 비용 — 다중 뷰 생성 및 rollout 증가로 훈련 비용이 추가됨.
- 조건부 활성화 — Oracle anchor는 최대 보상 rollout이 존재할 때만 활성화되므로, 모든 rollout이 저보상이면 효과가 제한적.
편집자 한 줄
다중 뷰를 통해 GRPO의 그룹 비교 문제를 우회한 점이 깔끔합니다. 단, 뷰 생성 전략이 task-specific 하게 튜닝될 여지가 있어 일반화는 더 봐야 할 듯.
- #grpo
- #gui-grounding
- #vista
- #zju
ZJU Scaling Logger