Papers·2일 전
SEATS: 학습 없는 단계별 토큰 선택으로 Omni-LLM 추론 4.8배 가속

Qwen2.5-Omni와 Qwen3-Omni에서 시각·오디오 토큰을 10%만 남기고도 FLOPs 9.3배 감소, prefill 속도 4.8배 향상, 성능 96.3% 유지하는 학습 없는 토큰 선택 방법 SEATS를 제안했습니다. Omni-LLM의 층별 토큰 의존성을 분석한 결과, 시각·오디오 토큰의 중요도가 블록 단위로 약해지며 후반부에서는 대부분 중복된다는 점에 착안해, LLM 진입 전에는 attention 기반 다양성 선택으로 시공간 중복을 제거하고, LLM 내부에서는 블록별로 점진적으로 토큰을 제거하며 쿼리 관련성 점수로 윈도우별 예산을 동적으로 할당합니다. 단, 이 방법은 Qwen 계열 Omni-LLM에 특화되어 있으며 다른 아키텍처에서의 일반화는 추가 검증이 필요합니다.
- #omni-llm
- #token-selection
- #inference-efficiency
- #qwen
- #multimodal
Zijie Xin