← Back to feed
Papers·4일 전

DeepMind, 비디오 LLM 지연시간 35% 단축하는 LiteFrame — 8배 많은 프레임 처리

DeepMind, 비디오 LLM 지연시간 35% 단축하는 LiteFrame — 8배 많은 프레임 처리

DeepMind 팀이 비디오 LLM의 지연시간 병목을 해결하는 LiteFrame을 공개했습니다. 기존 방식이 LLM 단의 토큰만 줄인 반면, LiteFrame은 비전 인코더 자체를 경량화해 8배 많은 프레임을 처리하면서도 InternVL3-8B 대비 종단간 지연시간을 35% 줄였습니다. 핵심은 CTD(Compressed Token Distillation)로, 큰 teacher 모델의 압축 표현을 직접 예측하도록 작은 student 인코더를 학습시켜 불필요한 계산을 생략하는 점입니다. 다만 이 성능은 추가 LM Adaptation(LMA)을 전제로 하며, 특정 벤치마크에 국한된 결과일 가능성이 있습니다.

  • #video-llm
  • #efficiency
  • #deepmind
  • #distillation
Deepmind

Comments

— 첫 댓글을 남겨보세요 —