Papers·1주 전
HeyGen, 1080p 무제한 길이 아바타 영상 생성 Avatar V — 동작·표정·화법 재현

HeyGen이 참조 영상 전체 토큰 시퀀스에 조건화하는 생산 규모 아바타 생성 프레임워크 Avatar V를 공개했습니다. 정적 이미지 기반 기존 방식과 달리, Sparse Reference Attention으로 긴 참조 영상의 동적 행동 패턴(말하기 리듬, 미세 표정)까지 재현합니다. 100M+ 클립 데이터, 5단계 학습(flow matching → personality fine-tuning → 2단계 distillation 10x 가속 → RLHF)으로 Seedance 2.0, Veo 3.1 등 최신 시스템을 자동·인간 평가에서 능가했지만, 수천 GPU 규모 인프라가 필요해 재현성은 제한적입니다.
HeyGen이 참조 영상 전체를 조건으로 삼아 아바타의 정적 외형뿐 아니라 말투·제스처·표정까지 재현하는 Avatar V를 발표했습니다.
핵심 결론
- 태스크 — 참조 영상 기반 아바타 영상 생성 — 1080p, 무제한 길이.
- 성능 — Seedance 2.0, Kling O3 Pro, Veo 3.1, OmniHuman 1.5 대비 identity 보존·립싱크·화질에서 SOTA.
- 평가 — 자동 메트릭과 인간 평가 모두에서 일관된 우위를 보였습니다.
방법
- 참조 조건화 — 고정 크기 임베딩 대신 참조 영상 전체 토큰 시퀀스에 attention으로 조건화.
- Sparse Reference Attention — 비대칭 attention으로 선형 복잡도 — 긴 참조 영상도 처리 가능.
- 모션 스트림 — 폐루프 말하기 스타일 전이를 위한 별도 모션 표현 스트림.
- 초해상도 — Identity-aware refiner가 참조 조건화를 그대로 이어받아 디테일 보존.
- 데이터·학습 — 50M 원본 영상에서 100M+ 클립 큐레이션, 5단계 파이프라인(flow matching → personality fine-tuning → 2단계 distillation 10x 가속 → RLHF).
한계·조건
- 인프라 — 수천 GPU 규모로 학습되어 재현성이 낮습니다.
- 공개 — 논문과 Hugging Face 페이지는 공개되었으나, 코드나 가중치는 아직 공개되지 않았습니다.
- 벤치 — 자체 cross-scene benchmark에서 평가 — 외부 벤치마크 결과는 아직 보고되지 않았습니다.
편집자 한 줄
동적 행동 패턴까지 재현한다는 점은 인상적이지만, 공개된 정보만으로는 실제 일반화 성능을 판단하기 어렵습니다.
- #avatar
- #video-generation
- #heygen
- #attention
- #rlhf
HeyGen