← Back to feed
Papers·6일 전

GUI grounding 위한 quality-aware self-distillation — 6개 벤치에서 일관 개선

GUI grounding 위한 quality-aware self-distillation — 6개 벤치에서 일관 개선

Georgia 대학 팀이 GUI grounding 태스크에서 VLM의 좌표 예측 정확도를 높이는 quality-aware self-distillation 기법을 제안했습니다. 기존 on-policy self-distillation(OPSD)은 학생 생성 prefix가 목표 좌표에서 벗어나면 교사 신호가 불안정해지는 문제가 있는데, 여기에 soft correctness-aware gating과 teacher-probability scaling을 결합해 해결했습니다. 6개 GUI grounding 벤치마크에서 base 모델 대비 일관된 성능 향상을 보였고, 강력한 baseline을 능가했습니다.

Georgia 대학 연구팀이 GUI grounding을 위한 quality-aware self-distillation 기법을 제안했습니다.

핵심 결론

  • 태스크GUI grounding — 고해상도 스크린샷에서 작은 UI 요소를 식별하고 정확한 좌표 예측.
  • 성능6개 벤치마크에서 base 모델 대비 일관된 개선, 강력한 baseline 초과.

방법

  • 문제기존 OPSD는 학생 생성 prefix가 목표 좌표에서 벗어나면 coordinate-token 교사 신호 품질이 떨어짐.
  • 해결Soft correctness-aware gating으로 교사 예측이 ground-truth box로 완성 가능한지 확인 후 가중치 조정.
  • 보정Teacher-probability scaling으로 교사 confidence를 이용해 gated 신호 강도 보정.
  • 두 구성 요소는 단독으로는 효과가 없지만 결합 시 일관된 개선 — 상호 보완적 역할을 확인했습니다.

한계·조건

  • 벤치6개 GUI grounding 벤치마크에서 평가 — 특정 도메인에 국한될 가능성.
  • 코드코드 공개 여부는 명시되지 않음.

편집자 한 줄

OPSD의 한계를 정확히 짚고 간단한 보정으로 해결한 점이 깔끔합니다. 다만 추가 compute 비용이 얼마나 드는지 궁금하네요.

  • #gui-grounding
  • #self-distillation
  • #vlm
  • #university-of-georgia
University of Georgia
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —