Papers·1주 전
VLM 후학습에서 시각 지각과 추론의 분리 — staged training으로 WeMath +5.2%, RealWorldQA +3.7%

VLM의 성능 한계가 추론보다 시각 지각(perception) 부족에 기인한다는 분석을 바탕으로, 시각 지각, 시각 추론, 텍스트 추론을 분리한 staged training을 제안합니다. 시각 지각은 caption 기반 SFT보다 RL로 학습할 때 효과적이며, 지각이 먼저 확보되어야 추론이 효율적으로 개선됩니다. 실제로 staged training을 적용하면 merged training 대비 추론 정확도는 1.5% 높아지고 추론 길이는 20.8% 줄어듭니다. 다만 이 연구는 특정 VLM 아키텍처와 벤치마크에 국한되어 일반화 가능성은 추가 검증이 필요합니다.
- #vlm
- #vision-language
- #perception
- #reasoning
- #staged-training
Juncheng Wu