Papers·3개월 전

Mutual Forcing: 4~8 step 으로 50 step 수준의 오디오-비디오 동기화 생성

Yupeng Zhou 팀이 제안한 Mutual Forcing 은 오디오-비디오 생성을 위한 빠른 자기회귀 프레임워크로, 4~8 step 만으로 기존 50 step 기반 모델과 동등한 품질을 달성합니다. 두 단계 훈련(단일 모달 생성기 → 결합 모델)으로 최적화를 용이하게 하고, few-step 과 multi-step 생성을 하나의 가중치 공유 모델에 통합해 자기 증류와 훈련-추론 일관성을 높인 점이 핵심입니다. 추가적인 bidirectional teacher 모델이 필요 없고, 실제 쌍 데이터로 직접 개선됩니다. 단, 이 실험은 특정 벤치마크에 국한될 수 있으며 코드 공개 여부는 아직 확인되지 않았습니다.

#audio-video-generation
#autoregressive
#mutual-forcing
#streaming

Yupeng Zhou

원문 보기 →

Mutual Forcing: 4~8 step 으로 50 step 수준의 오디오-비디오 동기화 생성

Comments