Papers·3일 전
DPVR: 이미지 토큰은 중간 레이어에서 포화 — LLaVA 스타일 MLLM 연산량 30% 이상 절감

LLaVA-1.5 분석 결과, 이미지 토큰은 4번째 레이어 이후 텍스트-이미지 어텐션이 0.07로 급감하고 18층 이후 0.04로 수렴하는 반면 텍스트 토큰은 계속 학습됩니다. 이 관찰을 바탕으로 제안된 DPVR-LF는 포화 지점에서 이미지 토큰을 1-layer side branch로 라우팅하고, 나머지 13개 레이어는 텍스트만 처리한 뒤 마지막 층에서 재융합합니다. 약 3%의 학습 가능 파라미터만으로 벤치마크 성능을 유지하면서 deep stack에서의 시각 연산을 크게 줄였습니다. 단, LLaVA-1.5 기반 실험으로 다른 아키텍처 일반화는 추가 검증이 필요합니다.
LLaVA-1.5의 layer-wise 분석을 통해 이미지 토큰이 중간 레이어에서 포화됨을 발견하고, 이를 활용한 효율적 라우팅 프레임워크 DPVR을 제안합니다.
핵심 결론
- 관찰 — LLaVA-1.5에서 텍스트-이미지 어텐션이 layer 0에서 0.68, layer 4에서 0.07, layer 18 이후 0.04로 수렴 — 이미지 토큰은 초기 층에서 이미 포화.
- 성능 — DPVR-LF는 약 3%의 학습 파라미터만 추가로 사용하며, 표준 벤치마크에서 LLaVA-1.5 대비 경쟁력 있는 성능 유지.
- 효율 — Deep Transformer stack에서 시각 연산을 크게 줄여 추론 속도 향상 (정확한 수치는 원문에 명시되지 않음).
방법
- 아이디어 — 이미지 토큰이 포화되는 지점(약 4번째 층)에서 이를 1-layer trainable side branch로 라우팅.
- 텍스트 전용 — 이후 13개 층은 이미지 위치를 skip하고 텍스트 토큰만 처리.
- 재융합 — 마지막 층에서 side branch의 시각 특징과 텍스트 표현을 재융합 — 단일 융합 층만으로도 충분.
한계·조건
- 모델 — 실험은 LLaVA-1.5 기반으로만 수행; 다른 MLLM 아키텍처(예: Qwen-VL, InstructBLIP)로의 일반화는 검증되지 않음.
- 벤치마크 — 표준 벤치마크에서 성능 유지가 확인되었으나, 복잡한 시각 추론 태스크에서의 영향은 추가 분석 필요.
- 코드 — 원문에 코드 공개 여부 명시되지 않음.
편집자 한 줄
이미지 토큰의 조기 포화는 직관적으로 이해되는 현상인데, 이를 단순한 라우팅으로 해결한 점이 깔끔합니다. 다만 side branch의 1-layer가 충분한 이유에 대한 이론적 분석이 더 있으면 좋겠네요.
- #multimodal
- #efficiency
- #llava
- #routing
- #saturation
Siyuan Liu