Papers·6일 전

GUI grounding 위한 quality-aware self-distillation — 6개 벤치에서 일관 개선

Georgia 대학 팀이 GUI grounding 태스크에서 VLM의 좌표 예측 정확도를 높이는 quality-aware self-distillation 기법을 제안했습니다. 기존 on-policy self-distillation(OPSD)은 학생 생성 prefix가 목표 좌표에서 벗어나면 교사 신호가 불안정해지는 문제가 있는데, 여기에 soft correctness-aware gating과 teacher-probability scaling을 결합해 해결했습니다. 6개 GUI grounding 벤치마크에서 base 모델 대비 일관된 성능 향상을 보였고, 강력한 baseline을 능가했습니다.

Georgia 대학 연구팀이 GUI grounding을 위한 quality-aware self-distillation 기법을 제안했습니다.

핵심 결론

태스크 — GUI grounding — 고해상도 스크린샷에서 작은 UI 요소를 식별하고 정확한 좌표 예측.
성능 — 6개 벤치마크에서 base 모델 대비 일관된 개선, 강력한 baseline 초과.

방법

문제 — 기존 OPSD는 학생 생성 prefix가 목표 좌표에서 벗어나면 coordinate-token 교사 신호 품질이 떨어짐.
해결 — Soft correctness-aware gating으로 교사 예측이 ground-truth box로 완성 가능한지 확인 후 가중치 조정.
보정 — Teacher-probability scaling으로 교사 confidence를 이용해 gated 신호 강도 보정.
두 구성 요소는 단독으로는 효과가 없지만 결합 시 일관된 개선 — 상호 보완적 역할을 확인했습니다.

한계·조건

벤치 — 6개 GUI grounding 벤치마크에서 평가 — 특정 도메인에 국한될 가능성.
코드 — 코드 공개 여부는 명시되지 않음.

편집자 한 줄

OPSD의 한계를 정확히 짚고 간단한 보정으로 해결한 점이 깔끔합니다. 다만 추가 compute 비용이 얼마나 드는지 궁금하네요.

#gui-grounding
#self-distillation
#vlm
#university-of-georgia

University of Georgia

원문 보기 →

GUI grounding 위한 quality-aware self-distillation — 6개 벤치에서 일관 개선

핵심 결론

방법

한계·조건

Comments