← Back to feed
Papers·3일 전

Lumos-Nexus: 훈련 효율적인 통합 비디오 생성 프레임워크 — VBench 시각적 사실성 + 시간적 일관성 큰 폭 개선

Lumos-Nexus: 훈련 효율적인 통합 비디오 생성 프레임워크 — VBench 시각적 사실성 + 시간적 일관성 큰 폭 개선

Lumos-Nexus는 경량 생성기를 이해 블록과 정렬해 훈련하고, 추론 시 고용량 사전 학습 생성기로 점진적 주파수 브리징(UPFB)을 통해 고충실도 비디오를 생성하는 훈련 효율적인 통합 비디오 생성 프레임워크입니다. VBench에서 시각적 사실성과 시간적 일관성이 크게 향상되었으며, 추론 기반 생성 벤치마크 VR-Bench도 새로 제안했습니다. 코드와 모델은 공개 예정입니다.

Jiazheng Xing 팀이 훈련 효율적인 통합 비디오 생성 프레임워크 Lumos-Nexus를 공개했습니다. 고충실도 생성기를 통합 훈련 루프에 넣는 계산 비용 문제를 해결했습니다.

핵심 결론

  • 벤치VBench에서 시각적 사실성과 시간적 일관성에서 큰 폭의 개선을 달성했습니다.
  • 새 벤치추론 기반 비디오 생성 평가를 위한 VR-Bench를 제안했습니다.

방법

  • 2단계 설계훈련 시 경량 생성기만 이해 블록과 정렬해 추론 기반 의미 제어를 학습합니다.
  • UPFB추론 시 Unified Progressive Frequency Bridging으로 고용량 사전 학습 생성기로 점진적 핸드오프, coarse-to-fine 정제를 수행합니다.
  • 공유 잠재 공간에서 저주파에서 고주파로 점진적 전환해 고충실도 비디오를 생성합니다.

한계·조건

  • 환경고용량 생성기 사용으로 추론 시 추가 연산이 필요하지만, 훈련 비용은 크게 절감됩니다.
  • 코드GitHub에 코드와 모델이 공개되어 있습니다.

편집자 한 줄

훈련 효율성을 유지하면서 고충실도 생성을 가능하게 한 점이 인상적입니다. VR-Bench도 추론 기반 생성 평가에 유용할 듯합니다.

  • #video-generation
  • #unified-model
  • #reasoning
  • #vbench
Jiazheng Xing
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —