← Back to feed
Papers·3일 전

SeePhys Pro: 정보가 텍스트에서 이미지로 이동할 때 추론 성능이 떨어지는 현상과 진단

SeePhys Pro: 정보가 텍스트에서 이미지로 이동할 때 추론 성능이 떨어지는 현상과 진단

SeePhys Pro는 문제의 핵심 정보가 텍스트에서 이미지로 점진적으로 이동할 때 모델의 추론 능력이 얼마나 유지되는지 평가하는 미세한 양식 전이 벤치마크입니다. 현재 최첨단 모델들은 정보가 언어에서 다이어그램으로 이동함에 따라 평균 성능이 저하되며, 시각 변수 접지가 가장 큰 병목임을 발견했습니다. 또한, 멀티모달 RLVR 훈련에서 모든 훈련 이미지를 마스킹해도 검증 세트 성능이 향상될 수 있지만, 이는 시각적 증거보다는 잔여 텍스트 및 분포 단서에 기인할 수 있음을 보여줍니다. 이 연구는 멀티모달 추론 평가가 최종 정답 정확도뿐만 아니라 양식 전이에 대한 강건성과 작업에 중요한 시각적 증거에 의존하는지 진단하는 테스트를 포함해야 함을 강조합니다.

  • #multimodal
  • #reasoning
  • #benchmark
  • #rlvr
  • #visual-grounding
Kun Xiang

Comments

— 첫 댓글을 남겨보세요 —