Papers·2일 전
Video2LoRA: 비디오를 LoRA 어댑터로 압축, 추론 시 시각 토큰 0개로 동등 성능

비디오-언어 모델(VLM)의 추론 비용을 획기적으로 낮추는 방법인 Video2LoRA가 제안됐습니다. Perceiver 하이퍼네트워크가 프레임별 중간 표현을 읽어 단일 forward pass로 LoRA 어댑터를 생성, 이후 추론 시에는 시각 토큰 없이 어댑터만으로 질의응답이 가능합니다. SmolVLM2 500M/2.2B 기준 5개 캡셔닝 벤치마크에서 직접 비디오 입력과 통계적으로 동등했고, 8개 QA 벤치 중 7개에서도 동등했습니다. 추론 시 시각 토큰 부하는 최대 1,500배, TTFT는 6~80배 감소했으며, 1,024프레임/1024px까지 안정적으로 동작합니다. 다만 12프레임/384px로만 학습되어 긴 비디오에 대한 일반화는 추가 검증이 필요합니다.
비디오 처리 비용을 줄이기 위해, 비디오 전체를 LoRA 어댑터로 압축해 추론 시 시각 토큰을 아예 없애는 방법이 나왔습니다.
핵심 결론
- 성능 — 5개 캡셔닝 벤치마크에서 직접 비디오 입력과 통계적으로 동등(non-inferior), 8개 QA 중 7개에서도 동등.
- 효율 — 추론 시 시각 토큰 부하 최대 1,500배 감소, TTFT 6~80배 단축.
- 안정성 — 12프레임/384px로 학습됐지만 1,024프레임/1024px까지 성능 저하 없이 동작.
방법
- 아이디어 — Perceiver 하이퍼네트워크가 프레임별 중간 표현을 읽어 단일 forward pass로 LoRA 가중치를 직접 예측.
- 학습 — SmolVLM2 500M/2.2B에 대해 비디오 요약 및 캡셔닝 태스크로 학습.
- 추론 — LoRA 어댑터만 VLM에 적용하면 되므로, 컨텍스트에 시각 토큰이 전혀 필요 없음.
한계·조건
- 학습 데이터 — 12프레임/384px로만 학습되어, 더 긴 비디오나 고해상도에서의 일반화는 추가 실험이 필요.
- 모델 범위 — SmolVLM2 계열(500M/2.2B)에만 검증됨. 대형 모델에서의 효과는 미확인.
- 코드 공개 — Hugging Face 논문 페이지에 abstract만 공개, 코드 및 가중치는 아직 미공개.
편집자 한 줄
비디오를 LoRA로 압축해 추론 비용을 대폭 낮춘 점이 인상적입니다. 다만 학습 데이터가 12프레임으로 제한적이어서, 실제 긴 비디오에서의 일반화는 후속 연구를 지켜봐야겠네요.
- #vision-language
- #lora
- #video
- #efficient-inference
- #huggingface
Manan Suri