Papers·2일 전
Kwai Keye-VL-2.0-30B-A3B: MoE 기반 장시간 비디오 이해 모델, 256K 컨텍스트에서 SOTA

Kwai Keye-VL-2.0-30B-A3B는 MoE 구조의 멀티모달 기초 모델로, 256K 토큰의 손실 없는 컨텍스트 처리를 지원하며 장시간 비디오 이해와 에이전트 작업에서 SOTA 성능을 달성했습니다. DeepSeek Sparse Attention을 GQA 기반 아키텍처에 최초로 적용해 정보 중복과 계산 비용 문제를 해결했고, Cross-Modal Multi-Teacher On-Policy Distillation(MOPD)로 다중 작업 정렬 중 파괴적 망각을 완화했습니다. 단 3B 활성 파라미터로 TimeLens, Video-MME-v2, LongVideoBench 등에서 동급 최고 성능을 보였습니다.
Kwai Keye-VL-2.0-30B-A3B는 256K 컨텍스트를 손실 없이 처리하는 MoE 기반 멀티모달 모델로, 장시간 비디오 이해와 에이전트 작업에서 SOTA를 달성했습니다.
핵심 결론
- 벤치 — TimeLens 미세 시간적 위치 추정, Video-MME-v2 장시간 비디오 이해, LongVideoBench에서 동급 최고 성능.
- 활성 파라미터 — 30B 전체 파라미터 중 3B만 활성화되어 효율적.
방법
- DSA 적용 — DeepSeek Sparse Attention을 GQA 기반 멀티모달 아키텍처에 최초로 적용해 256K 컨텍스트를 손실 없이 처리.
- MOPD — Cross-Modal Multi-Teacher On-Policy Distillation으로 다중 작업 정렬 시 파괴적 망각을 방지.
- 인프라 — 확장 가능한 비디오 I/O, 이종 ViT-LM 병렬 처리, 커스텀 DSA 커널로 처리량 최대화.
한계·조건
- 리소스 — 30B MoE 모델로 추론 시 상당한 GPU 메모리 필요 (구체적 수치 미공개).
- 공개 — 체크포인트를 공개하여 커뮤니티 기여를 목표로 함.
편집자 한 줄
장시간 비디오 이해에서 256K 컨텍스트를 실용적으로 지원한 점이 인상적입니다. 다만 활성 파라미터 대비 전체 파라미터가 큰 점은 추론 비용 측면에서 고려할 필요가 있습니다.
- #multimodal
- #moe
- #long-video
- #attention
- #kwai
Kwai Keye