Papers·1개월 전

DeepMind, 비디오 LLM 지연시간 35% 단축하는 LiteFrame — 8배 많은 프레임 처리

DeepMind 팀이 비디오 LLM의 지연시간 병목을 해결하는 LiteFrame을 공개했습니다. 기존 방식이 LLM 단의 토큰만 줄인 반면, LiteFrame은 비전 인코더 자체를 경량화해 8배 많은 프레임을 처리하면서도 InternVL3-8B 대비 종단간 지연시간을 35% 줄였습니다. 핵심은 CTD(Compressed Token Distillation)로, 큰 teacher 모델의 압축 표현을 직접 예측하도록 작은 student 인코더를 학습시켜 불필요한 계산을 생략하는 점입니다. 다만 이 성능은 추가 LM Adaptation(LMA)을 전제로 하며, 특정 벤치마크에 국한된 결과일 가능성이 있습니다.

#video-llm
#efficiency
#deepmind
#distillation

Deepmind

원문 보기 →

DeepMind, 비디오 LLM 지연시간 35% 단축하는 LiteFrame — 8배 많은 프레임 처리

Comments