Papers·4일 전
UCLA, VLM 추론 시각 증거를 점·박스로 명시화 — Gemma3-4B 공간 추론에서 27B 급 성능

UCLA 팀이 VLM 추론 과정에서 자연어 생각과 함께 시각적 증거를 점(point) 또는 박스(box)로 명시적으로 grounding 하는 'visually grounded thinking'을 제안했습니다. SAM3 기반 에이전트로 증거 마스크를 추출하고, grounding-aware 강화학습으로 정답 보상과 grounding 보상을 함께 최적화합니다. 두 개의 counting 벤치마크와 네 개의 공간 추론 벤치마크에서 Gemma3-4B-IT에 적용 시 일관된 성능 향상을 보였으며, 공간 추론에서는 같은 계열의 Gemma3-27B-IT와 비슷하거나 능가했습니다. 단, 합성 파이프라인 의존성과 SAM3 오차가 성능에 영향을 줄 수 있다는 한계가 있습니다.
UCLA 팀이 VLM 추론 과정에서 자연어 생각과 함께 시각적 증거를 점·박스로 명시화하는 방법을 공개했습니다.
핵심 결론
- 벤치 — Counting 2종, Spatial 4종 벤치마크에서 Gemma3-4B-IT 기준 일관된 성능 향상.
- 규모 — 공간 추론에서 4B 모델이 27B 모델과 동등하거나 능가하는 결과를 보였습니다.
방법
- 시각적 근거 — 추론 단계마다 자연어 생각에 점(point) 또는 박스(box)로 시각 증거를 명시적으로 interleave.
- 파이프라인 — SAM3 기반 에이전트로 올바른 추론 경로에서 필요한 시각 객체를 추출, 정렬된 point/box supervision 생성.
- 학습 — 정답 보상 + grounding 보상(생성된 참조가 올바른 이미지 증거와 일치하는지 점수화)을 결합한 grounding-aware RL.
한계·조건
- 의존성 — 합성 파이프라인에 크게 의존하며, SAM3의 segmentation 오차가 grounding 품질에 영향을 줄 수 있습니다.
- 비용 — 추론 시 grounding을 위한 추가 연산이 필요해 latency가 증가할 가능성이 있습니다.
- 범위 — Counting과 Spatial 태스크에 국한된 평가로, 다른 VLM 태스크로의 일반화는 추가 검증이 필요합니다.
편집자 한 줄
point grounding이 counting에, box grounding이 spatial task에 각각 더 효과적이라는 분석이 인상적입니다. 다만 SAM3 기반 파이프라인의 오차 전파를 어떻게 제어할지가 실용화의 관건이 될 듯합니다.
- #vision-language
- #grounding
- #reasoning
- #ucla
University of California, Los Angeles