Papers·1개월 전

KAIST Lip Forcing — 실시간 립싱크를 위한 자회귀 확산 증류, 14B 교사 대비 39.8배 속도 향상

KAIST 팀이 실시간 립싱크를 위한 첫 자회귀 확산 방법 Lip Forcing을 제안했습니다. 14B 양방향 확산 교사 모델을 인과적 학생 모델로 증류하고, 단 2회의 denoising step으로 청크 단위 생성을 가능하게 했습니다. 1.3B 학생 모델은 31 FPS로 실시간 스트리밍을 달성했고, 14B 학생 모델은 교사 대비 39.8배 빠르면서도 유사한 참조 충실도를 보였습니다. 다만 CFG 없이 학습된 학생은 동기화 성능이 다소 떨어질 수 있다는 한계가 있습니다.

KAIST 연구진이 실시간 립싱크를 위한 자회귀 확산 증류 방법 Lip Forcing을 공개했습니다.

핵심 결론

속도 — 1.3B 학생 모델이 31 FPS로 실시간 스트리밍 가능, 동일 규모 양방향 모델 대비 17.6배 빠름.
스케일 — 14B 학생 모델은 V2V 립싱크용 확산 모델 중 최대 규모이며, 교사 대비 39.8배 빠릅니다.
지연 — 두 스케일 모두 최초 프레임까지 지연이 1ms 미만으로, 모든 확산 baseline보다 낮습니다.

방법

증류 — 14B 양방향 확산 교사를 인과적 학생 모델로 증류, 청크 단위 자회귀 생성.
추론 — 단 2회 denoising step만 사용하며, inference-time CFG 없이 동작합니다.
분석 기반 — 교사 궤적 분석을 통해 CFG 충실도-동기화 트레이드오프를 발견, Sync-Window DMD와 SyncNet 보상 등 세 가지 구성 요소로 설계했습니다.

한계·조건

CFG — CFG 없이 학습된 학생은 참조 충실도는 높지만 동기화 성능이 CFG 사용 모델보다 낮을 수 있습니다.
데이터 — 논문에서 사용한 데이터셋 규모와 다양성에 대한 정보는 제한적입니다.
코드 — 코드 공개 여부는 아직 확인되지 않았습니다.

편집자 한 줄

속도 개선폭이 상당하지만, 동기화 품질과 충실도 간 트레이드오프를 실제 서비스에서 어떻게 조율할지가 관건이겠네요.

#lip-sync
#diffusion
#distillation
#kaist
#real-time

KAIST AI

원문 보기 →

KAIST Lip Forcing — 실시간 립싱크를 위한 자회귀 확산 증류, 14B 교사 대비 39.8배 속도 향상

핵심 결론

방법

한계·조건

Comments