← Back to feed
Papers·어제

Boston University, 예측 부호화 기반 Swift Sampling — 긴 영상에서 정보량 높은 프레임만 골라 정확도 +12.5%p

Boston University, 예측 부호화 기반 Swift Sampling — 긴 영상에서 정보량 높은 프레임만 골라 정확도 +12.5%p

Boston University 팀이 인간 뇌의 예측 부호화(predictive coding)에서 영감을 받아, 긴 영상에서 정보량이 높은 프레임을 자동으로 선별하는 Swift Sampling을 제안했습니다. 비디오를 잠재 공간에서의 미분 가능한 궤적으로 모델링하고, Taylor 전개로 예측된 경로와 실제 프레임 간의 차이가 큰 순간을 '시간적 서프라이즈'로 정의해 샘플링합니다. 사전 훈련이나 하이퍼파라미터 튜닝이 필요 없으며, 추가 연산 비용이 baseline 대비 0.02배에 불과해 기존 방법보다 30배 가벼운 점이 특징입니다. 3개의 긴 영상 QA 벤치마크와 10개의 하위 태스크에서 균일 샘플링 및 기존 query-agnostic 방법을 능가했고, 특히 적은 프레임 예산에서 최대 12.5%p 정확도 향상을 보였습니다.

  • #video-understanding
  • #frame-selection
  • #predictive-coding
  • #long-video
  • #boston-university
Boston University

Comments

— 첫 댓글을 남겨보세요 —