Papers·1개월 전

StreamChar: LLM 오케스트레이터로 실시간 스트리밍 오디오-비디오 캐릭터 애니메이션 생성

StreamChar는 단일 H100 GPU에서 실시간으로 작동하는 스트리밍 오디오-비디오 캐릭터 애니메이션 프레임워크입니다. LLM 기반 오케스트레이터가 대본과 히스토리를 바탕으로 프레임 정렬 오디오 조건을 생성하고, joint audio-video DiT가 로컬 양방향 denoising을 수행합니다. 싱크 청크 메모리로 장기 드리프트를 줄이고, 2단계 증류 파이프라인으로 효율성을 높였습니다. 단, H100 GPU 단일 기준이라 리소스 요구가 높은 편입니다.

실시간 스트리밍 캐릭터 애니메이션에서 대본 정확도, 시각적 일관성, 저지연을 동시에 만족하기 어려운 문제를 해결한 StreamChar가 공개되었습니다.

핵심 결론

성능 — 단일 H100 GPU에서 실시간 추론 가능하며, 최근 joint 및 audio-driven baseline 대비 전사 정확도, AV 싱크, 시각 품질, 스트리밍 안정성에서 유리한 트레이드오프를 보였습니다.
프로토콜 — 짧은 클립과 장기(long-horizon) 프로토콜 모두에서 평가되었으며, 장기 시나리오에서 드리프트가 현저히 줄었습니다.

방법

분리된 구조 — LLM 오케스트레이터가 장기 계획을 담당하고, joint audio-video DiT가 짧은 윈도우 내 양방향 denoising을 수행하는 식으로 역할을 분리했습니다.
진행 인식 포인터 — 롤아웃 훈련 중 부분 대본과 생성된 오디오 간의 정렬을 맞추는 progress-aware pointer를 도입했습니다.
싱크 청크 메모리 — 지속적인 시각적 앵커 역할을 하는 sink-chunk memory로 장기 드리프트를 완화합니다.
2단계 증류 — 먼저 sampler를 압축한 후, 온라인 청크 롤아웃 환경에서 student 모델을 fine-tuning하는 효율적인 배포 파이프라인을 사용합니다.

한계·조건

하드웨어 — 실시간 동작이 단일 H100 GPU 기준으로 확인되어, 저사양 GPU에서는 지연이 증가할 가능성이 있습니다.
평가 범위 — 공개 데이터셋 기반 실험으로, 실제 서비스 환경에서의 다양한 노이즈나 긴 대본에 대한 일반화는 추가 검증이 필요합니다.
코드 — 현재 abstract와 figure만 공개되었으며, 코드 및 모델 가중치는 아직 공개되지 않았습니다.

편집자 한 줄

LLM과 DiT의 역할 분할이 streaming 시나리오에서 꽤 깔끔하게 동작하는 점이 인상적입니다. 다만 H100 의존도가 높아 실제 서빙 비용은 좀 더 봐야 할 것 같네요.

#streaming
#character-animation
#audio-video-generation
#dit
#llm

WanXiang

원문 보기 →

StreamChar: LLM 오케스트레이터로 실시간 스트리밍 오디오-비디오 캐릭터 애니메이션 생성

핵심 결론

방법

한계·조건

Comments