← Back to feed
Papers·3일 전

DPVR: 이미지 토큰은 중간 레이어에서 포화 — LLaVA 스타일 MLLM 연산량 30% 이상 절감

DPVR: 이미지 토큰은 중간 레이어에서 포화 — LLaVA 스타일 MLLM 연산량 30% 이상 절감

LLaVA-1.5 분석 결과, 이미지 토큰은 4번째 레이어 이후 텍스트-이미지 어텐션이 0.07로 급감하고 18층 이후 0.04로 수렴하는 반면 텍스트 토큰은 계속 학습됩니다. 이 관찰을 바탕으로 제안된 DPVR-LF는 포화 지점에서 이미지 토큰을 1-layer side branch로 라우팅하고, 나머지 13개 레이어는 텍스트만 처리한 뒤 마지막 층에서 재융합합니다. 약 3%의 학습 가능 파라미터만으로 벤치마크 성능을 유지하면서 deep stack에서의 시각 연산을 크게 줄였습니다. 단, LLaVA-1.5 기반 실험으로 다른 아키텍처 일반화는 추가 검증이 필요합니다.

LLaVA-1.5의 layer-wise 분석을 통해 이미지 토큰이 중간 레이어에서 포화됨을 발견하고, 이를 활용한 효율적 라우팅 프레임워크 DPVR을 제안합니다.

핵심 결론

  • 관찰LLaVA-1.5에서 텍스트-이미지 어텐션이 layer 0에서 0.68, layer 4에서 0.07, layer 18 이후 0.04로 수렴 — 이미지 토큰은 초기 층에서 이미 포화.
  • 성능DPVR-LF는 약 3%의 학습 파라미터만 추가로 사용하며, 표준 벤치마크에서 LLaVA-1.5 대비 경쟁력 있는 성능 유지.
  • 효율Deep Transformer stack에서 시각 연산을 크게 줄여 추론 속도 향상 (정확한 수치는 원문에 명시되지 않음).

방법

  • 아이디어이미지 토큰이 포화되는 지점(약 4번째 층)에서 이를 1-layer trainable side branch로 라우팅.
  • 텍스트 전용이후 13개 층은 이미지 위치를 skip하고 텍스트 토큰만 처리.
  • 재융합마지막 층에서 side branch의 시각 특징과 텍스트 표현을 재융합 — 단일 융합 층만으로도 충분.

한계·조건

  • 모델실험은 LLaVA-1.5 기반으로만 수행; 다른 MLLM 아키텍처(예: Qwen-VL, InstructBLIP)로의 일반화는 검증되지 않음.
  • 벤치마크표준 벤치마크에서 성능 유지가 확인되었으나, 복잡한 시각 추론 태스크에서의 영향은 추가 분석 필요.
  • 코드원문에 코드 공개 여부 명시되지 않음.

편집자 한 줄

이미지 토큰의 조기 포화는 직관적으로 이해되는 현상인데, 이를 단순한 라우팅으로 해결한 점이 깔끔합니다. 다만 side branch의 1-layer가 충분한 이유에 대한 이론적 분석이 더 있으면 좋겠네요.

  • #multimodal
  • #efficiency
  • #llava
  • #routing
  • #saturation
Siyuan Liu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —