← Back to feed
Papers·5일 전

PVM: 시각 신호 희석 문제 해결 — Qwen3-VL 4B/8B 복합 추론 정확도 일관 향상

PVM: 시각 신호 희석 문제 해결 — Qwen3-VL 4B/8B 복합 추론 정확도 일관 향상

자기회귀 LVLM에서 텍스트 히스토리가 길어질수록 시각 attention이 약해지는 'Visual Signal Dilution' 현상을 해결하기 위해, Persistent Visual Memory (PVM)라는 경량 모듈을 제안했습니다. PVM은 FFN과 병렬로 배치되어 거리 무관한 검색 경로를 통해 시각 임베딩을 직접 제공하며, Qwen3-VL 4B 및 8B 모델에서 복잡한 추론 태스크의 정확도를 일관되게 향상시켰습니다. 추가 분석 결과, PVM이 길이에 따른 시그널 감쇠를 억제하고 내부 예측 수렴을 가속화하는 것으로 나타났습니다.

Siyuan Huang

Comments

— 첫 댓글을 남겨보세요 —