Papers·2주 전
EarlyTom: 비디오 LLM 시각 인코더 내부에서 토큰 압축 — TTFT 최대 2.65x 감소

EarlyTom은 비디오 LLM의 시각 인코더 단계에서 조기에 토큰을 압축하는 훈련 없는 프레임워크로, LLaVA-OneVision-7B 기준 TTFT를 최대 2.65배, FLOPs를 61% 줄이면서도 정확도는 유지합니다. 기존 접근법이 프리필링 후반에만 압축하던 것과 달리, 인코더 내부에서 압축함으로써 TTFT 병목을 직접 해결한 점이 핵심입니다. 단, 단일 A100 GPU 기준이며, 다양한 비디오 길이와 모델에 대한 일반화 검증이 추가로 필요합니다.
비디오 LLM의 실용화를 가로막는 시각 토큰 처리 비효율을, 시각 인코더 내부에서 조기에 압축하는 훈련 없는 프레임워크 EarlyTom이 제안되었습니다.
핵심 결론
- 성능 — LLaVA-OneVision-7B 기준 TTFT 최대 2.65x 감소, FLOPs 61% 절감, 정확도는 full-token 대비 유사.
- 기여 — 시각 인코더 내부에서의 조기 압축이 TTFT 개선에 효과적임을 실증.
방법
- 조기 압축 — 시각 인코더의 중간 층에서 토큰 수를 줄여, 이후 인코더 연산과 LLM 프리필링 모두 가속.
- 분리된 공간 선택 — 공간적 토큰 선택을 디코딩해, 각 층에서 중요한 시각 영역을 유지하면서 중복을 최소화.
- 훈련 없이 기존 모델에 바로 적용 가능한 점이 실용적입니다.
한계·조건
- 환경 — 단일 NVIDIA A100 GPU 기준, 멀티 GPU나 엣지 디바이스에서의 이득은 추가 검증 필요.
- 일반화 — LLaVA-OneVision-7B 외 다른 아키텍처(예: Video-LLaVA)에서의 성능은 아직 보고되지 않음.
- 코드 — Hugging Face papers 페이지에 abstract와 figure만 공개, 코드는 추후 공개 예정.
편집자 한 줄
비디오 LLM의 실시간 응용에 걸림돌이던 TTFT를 인코더 단계에서 직접 건드린 점이 인상적입니다. 다만, 압축률이 높아질수록 긴 비디오에서 정보 손실이 누적될 가능성은 염두에 둘 만합니다.
- #video-llm
- #token-compression
- #efficiency
- #ttft
- #llava
Hesong Wang