Papers·3일 전
Incantation: 자연어로 멀티 엔티티 제어 가능한 비디오 월드 모델 — 크로스 엔티티 전이 89% 성능

Shangwen Zhu 팀이 제안한 Incantation은 프레임 단위(0.25초) 자연어 조건부 상호작용을 지원하는 첫 번째 인터랙티브 비디오 월드 모델로, 여러 엔티티를 동시에 제어하고 엔티티 간 개념 전이가 가능합니다. 사전학습된 양방향 비디오 백본에 프레임-로컬 텍스트 cross-attention을 결합하고, ODE 초기화 Self-Forcing 증류와 RoPE 분리 슬라이딩 KV-cache로 실시간 장기 스트리밍을 구현했습니다. Action-Index 기준선 대비 크로스 엔티티 전이(89% vs 43%)와 어휘 외 프롬프트(90% vs 0%)에서 큰 격차를 보였으며, 2-step student는 480p에서 19.7 FPS, 2시간 롤아웃 동안 안정적인 FVD를 유지합니다. 단, 현재는 Elden Ring과 KOF 데이터셋으로 제한되며, 더 큰 스케일 데이터는 추후 공개 예정입니다.
- #video-world-model
- #natural-language-control
- #interactive-video
- #multi-entity
- #incantation
Shangwen Zhu