Papers·3일 전
Lumos-Nexus: 훈련 효율적인 통합 비디오 생성 프레임워크 — VBench 시각적 사실성 + 시간적 일관성 큰 폭 개선

Lumos-Nexus는 경량 생성기를 이해 블록과 정렬해 훈련하고, 추론 시 고용량 사전 학습 생성기로 점진적 주파수 브리징(UPFB)을 통해 고충실도 비디오를 생성하는 훈련 효율적인 통합 비디오 생성 프레임워크입니다. VBench에서 시각적 사실성과 시간적 일관성이 크게 향상되었으며, 추론 기반 생성 벤치마크 VR-Bench도 새로 제안했습니다. 코드와 모델은 공개 예정입니다.
Jiazheng Xing 팀이 훈련 효율적인 통합 비디오 생성 프레임워크 Lumos-Nexus를 공개했습니다. 고충실도 생성기를 통합 훈련 루프에 넣는 계산 비용 문제를 해결했습니다.
핵심 결론
- 벤치 — VBench에서 시각적 사실성과 시간적 일관성에서 큰 폭의 개선을 달성했습니다.
- 새 벤치 — 추론 기반 비디오 생성 평가를 위한 VR-Bench를 제안했습니다.
방법
- 2단계 설계 — 훈련 시 경량 생성기만 이해 블록과 정렬해 추론 기반 의미 제어를 학습합니다.
- UPFB — 추론 시 Unified Progressive Frequency Bridging으로 고용량 사전 학습 생성기로 점진적 핸드오프, coarse-to-fine 정제를 수행합니다.
- 공유 잠재 공간에서 저주파에서 고주파로 점진적 전환해 고충실도 비디오를 생성합니다.
한계·조건
- 환경 — 고용량 생성기 사용으로 추론 시 추가 연산이 필요하지만, 훈련 비용은 크게 절감됩니다.
- 코드 — GitHub에 코드와 모델이 공개되어 있습니다.
편집자 한 줄
훈련 효율성을 유지하면서 고충실도 생성을 가능하게 한 점이 인상적입니다. VR-Bench도 추론 기반 생성 평가에 유용할 듯합니다.
- #video-generation
- #unified-model
- #reasoning
- #vbench
Jiazheng Xing