Papers·2일 전
Reroute: VLM 시각 토큰 감소를 복구 가능한 라우팅으로 전환 — FastV/PDrop 대비 grounding 5~12% 개선

CMU 연구팀이 VLM 디코더에서 시각 토큰을 영구 삭제하지 않고, 일부를 우회시켰다가 다음 라우팅 단계에서 다시 후보 풀에 합류시키는 Reroute를 제안했습니다. FastV, PDrop, Nüwa 등 기존 pruning 방법 위에 덧대어, 동일 TFLOPs와 KV-cache 예산에서 grounding 성능을 5~12% 개선했으며 일반 VQA 성능은 유지했습니다. 단 LLaVA-1.5와 Qwen 백본에 한정된 실험 결과입니다.
CMU 연구팀이 VLM 디코더에서 시각 토큰을 영구 삭제하지 않고, 일부를 우회시켰다가 다음 라우팅 단계에서 다시 후보 풀에 합류시키는 Reroute를 제안했습니다.
핵심 결론
- 벤치 — FastV, PDrop, Nüwa 위에 Reroute를 얹으면 grounding 태스크에서 5~12% 정확도 향상, 일반 VQA는 유지.
- 모델 — LLaVA-1.5 (7B/13B) 및 Qwen-VL (7B) 백본에서 동일 추세 확인.
방법
- 복구 가능 라우팅 — 각 라우팅 단계에서 선택된 토큰만 디코더 블록을 통과하고, 나머지는 우회 후 다음 단계 후보 풀에 재진입.
- 기존 호환 — 기존 attention score 순위 규칙과 단계별 스케줄을 그대로 재사용하므로, 이론적 TFLOPs와 KV-cache 예산이 변하지 않습니다.
한계·조건
- 백본 제한 — LLaVA-1.5와 Qwen-VL 계열만 실험, 다른 VLM 아키텍처에서는 일반화가 확인되지 않았습니다.
- 코드 — GitHub에 공개 (https://github.com/elmma/mllm-reroute/).
편집자 한 줄
토큰 중요도가 레이어마다 달라진다는 직관을 단순한 우회 메커니즘으로 해결한 점이 깔끔합니다. 다만 실험 벤치마크가 제한적이라, 더 다양한 백본에서의 검증이 필요해 보입니다.
- #vlm
- #token-reduction
- #routing
- #cmu
Cheng-Yu Yang