Papers·3개월 전

PFlowNet: 시각적 환각 줄인 LVLM 추론 — V* Bench 90.6% SOTA

대규모 비전-언어 모델(LVLM)의 언어 편향과 환각 문제를 해결하기 위해, 기존의 기하학적 전문가 prior 대신 추론 중심의 시각적 흐름을 학습하는 Perceptual Flow Network(PFlowNet)를 제안했습니다. 인지와 추론을 분리한 자기 조건 생성 과정과 변분 강화 학습을 통해 다차원 보상을 통합하여, 시각적 신뢰성을 유지하면서 추론 성능을 높였습니다. V* Bench(90.6%)와 MME-RealWorld-lite(67.0%)에서 SOTA를 달성했지만, 추가적인 연산 비용과 특정 벤치마크에 최적화되었을 가능성이 있습니다.

#lvlm
#hallucination
#visual-reasoning
#reinforcement-learning
#pflownet

Yangfu Li

원문 보기 →

PFlowNet: 시각적 환각 줄인 LVLM 추론 — V* Bench 90.6% SOTA

Comments