← Back to feed
Papers·5일 전

SketchVLM: VLMs가 이미지 위에 SVG로 설명을 그리다 — 정확도 최대 +28.5%p

SketchVLM: VLMs가 이미지 위에 SVG로 설명을 그리다 — 정확도 최대 +28.5%p

SketchVLM은 별도 학습 없이 기존 VLM(Gemini-3-Pro, GPT-5 등)이 입력 이미지 위에 비파괴적 SVG 오버레이를 그려 시각적 추론 과정을 설명하는 프레임워크입니다. 미로 탐색, 공 궤적 예측, 객체 세기 등 7개 벤치마크에서 작업 정확도를 최대 28.5%p 향상시키고, 주석 품질은 기존 대비 최대 1.48배 개선했습니다. 단일 턴 생성만으로도 강력한 성능을 보이며, 다중 턴 생성은 인간-AI 협업 가능성을 열어줍니다. 코드와 데모는 공개되었습니다.

Brandon Collins

Comments

— 첫 댓글을 남겨보세요 —