← Back to feed
Papers·2일 전

GoClick: 230M 파라미터로 GUI 요소 grounding — 10.8M 데이터를 3.8M로 정제

GoClick: 230M 파라미터로 GUI 요소 grounding — 10.8M 데이터를 3.8M로 정제

GoClick은 230M 파라미터의 경량 VLM으로, 기존 2.5B 이상 모델과 견줄 만한 GUI 요소 grounding 성능을 달성했습니다. 인코더-디코더 구조를 채택해 작은 스케일에서 decoder-only 대비 우수했으며, Progressive Data Refinement 파이프라인으로 10.8M 원시 데이터에서 3.8M 핵심 세트를 추출해 학습 효율을 높였습니다. 다만 모바일 기기 온디바이스 실행을 목표로 하지만, 실제 배포 시 latency와 메모리 측면에서 추가 검증이 필요해 보입니다.

Hongxin Li

Comments

— 첫 댓글을 남겨보세요 —