Papers·1주 전
Talker-T2AV: 오디오-비디오 분리 디코딩으로 talking head 생성 성능 개선

Talker-T2AV는 오디오와 비디오의 고수준 의미는 공유 백본에서 처리하되, 저수준 렌더링은 각각의 디코더로 분리하는 autoregressive diffusion 프레임워크입니다. 공유 autoregressive 언어 모델이 unified patch-level token space에서 오디오와 비디오를 공동 추론하고, 두 개의 경량 diffusion transformer head가 hidden state를 frame-level latent로 디코딩합니다. Talking portrait 벤치마크에서 lip-sync 정확도, 비디오 품질, 오디오 품질 모두에서 dual-branch baseline을 능가했으며, cascaded pipeline보다 강한 cross-modal 일관성을 보였습니다.
- #talking-head
- #audio-video-generation
- #diffusion
- #autoregressive
- #huggingface
Zhen Ye