Papers·1개월 전

VLM 후학습에서 시각 지각과 추론의 분리 — staged training으로 WeMath +5.2%, RealWorldQA +3.7%

VLM의 성능 한계가 추론보다 시각 지각(perception) 부족에 기인한다는 분석을 바탕으로, 시각 지각, 시각 추론, 텍스트 추론을 분리한 staged training을 제안합니다. 시각 지각은 caption 기반 SFT보다 RL로 학습할 때 효과적이며, 지각이 먼저 확보되어야 추론이 효율적으로 개선됩니다. 실제로 staged training을 적용하면 merged training 대비 추론 정확도는 1.5% 높아지고 추론 길이는 20.8% 줄어듭니다. 다만 이 연구는 특정 VLM 아키텍처와 벤치마크에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

#vlm
#vision-language
#perception
#reasoning
#staged-training

Juncheng Wu

원문 보기 →

VLM 후학습에서 시각 지각과 추론의 분리 — staged training으로 WeMath +5.2%, RealWorldQA +3.7%

Comments