Papers·2주 전
NAVA: 6.3B 파라미터로 오디오-비디오 동기 생성 — Align-then-Fuse MMDiT

Baidu 연구진이 오디오-비디오 동기 생성을 위한 NAVA 프레임워크를 공개했습니다. 기존 방식의 후기 정렬 또는 완전 통합 공간 대신, 전용 상호작용 공간에서 오디오-비디오 대응을 먼저 정렬한 후 외부 컨텍스트로 조건화하는 Align-then-Fuse MMDiT 구조가 핵심입니다. Verse-Bench와 Seed-TTS 평가에서 6.3B 파라미터만으로 우수한 비디오 품질, 정밀한 동기화, 음색 제어력을 달성했지만, 재현성과 학습 데이터 규모에 대한 세부 정보는 공개되지 않았습니다.
Baidu가 오디오-비디오 동기 생성을 위한 6.3B 파라미터 모델 NAVA를 발표했습니다.
핵심 결론
- 태스크 — Joint audio-video generation — 입력 텍스트와 참조 음색으로 동기화된 비디오+오디오 생성.
- 성능 — Verse-Bench와 Seed-TTS 벤치마크에서 비디오 품질, AV 동기화, 음색 제어력에서 기존 대비 우위.
- 파라미터 — 6.3B로 경쟁 모델 대비 효율적인 규모.
방법
- Align-then-Fuse — MMDiT 기반으로, 먼저 전용 상호작용 공간에서 오디오-비디오 정렬을 학습한 후 공동 잡음 제거로 전환.
- Timbre-in-Context — 참조 음색 큐를 특정 발화 구간에 조건화하여 음색 제어를 가능하게 함.
- 차별점 — 기존 dual-tower의 후기 정렬 문제와 unified tri-modal의 저수준 동기화 결핍을 동시에 해결.
한계·조건
- 재현성 — 코드와 학습 데이터셋 규모는 공개되지 않아 재현에 제약.
- 평가 — 사용자 연구 포함되었으나 벤치마크 범위가 제한적.
편집자 한 줄
Align-then-Fuse 아이디어는 직관적이면서도 효과적이어 보이나, 실제 배포 환경에서의 지연 시간이나 메모리 사용량에 대한 논의가 빠져 아쉽습니다.
- #audio-video-generation
- #mmdit
- #baidu
- #alignment
BAIDU