Papers·1개월 전

Reroute: VLM 시각 토큰 감소를 복구 가능한 라우팅으로 전환 — FastV/PDrop 대비 grounding 5~12% 개선

CMU 연구팀이 VLM 디코더에서 시각 토큰을 영구 삭제하지 않고, 일부를 우회시켰다가 다음 라우팅 단계에서 다시 후보 풀에 합류시키는 Reroute를 제안했습니다. FastV, PDrop, Nüwa 등 기존 pruning 방법 위에 덧대어, 동일 TFLOPs와 KV-cache 예산에서 grounding 성능을 5~12% 개선했으며 일반 VQA 성능은 유지했습니다. 단 LLaVA-1.5와 Qwen 백본에 한정된 실험 결과입니다.

CMU 연구팀이 VLM 디코더에서 시각 토큰을 영구 삭제하지 않고, 일부를 우회시켰다가 다음 라우팅 단계에서 다시 후보 풀에 합류시키는 Reroute를 제안했습니다.

핵심 결론

벤치 — FastV, PDrop, Nüwa 위에 Reroute를 얹으면 grounding 태스크에서 5~12% 정확도 향상, 일반 VQA는 유지.
모델 — LLaVA-1.5 (7B/13B) 및 Qwen-VL (7B) 백본에서 동일 추세 확인.

방법

복구 가능 라우팅 — 각 라우팅 단계에서 선택된 토큰만 디코더 블록을 통과하고, 나머지는 우회 후 다음 단계 후보 풀에 재진입.
기존 호환 — 기존 attention score 순위 규칙과 단계별 스케줄을 그대로 재사용하므로, 이론적 TFLOPs와 KV-cache 예산이 변하지 않습니다.

한계·조건

백본 제한 — LLaVA-1.5와 Qwen-VL 계열만 실험, 다른 VLM 아키텍처에서는 일반화가 확인되지 않았습니다.
코드 — GitHub에 공개 (https://github.com/elmma/mllm-reroute/).

편집자 한 줄

토큰 중요도가 레이어마다 달라진다는 직관을 단순한 우회 메커니즘으로 해결한 점이 깔끔합니다. 다만 실험 벤치마크가 제한적이라, 더 다양한 백본에서의 검증이 필요해 보입니다.

#vlm
#token-reduction
#routing
#cmu

Cheng-Yu Yang

원문 보기 →

Reroute: VLM 시각 토큰 감소를 복구 가능한 라우팅으로 전환 — FastV/PDrop 대비 grounding 5~12% 개선

핵심 결론

방법

한계·조건

Comments