← Back to feed
Papers·1주 전

HeyGen, 1080p 무제한 길이 아바타 영상 생성 Avatar V — 동작·표정·화법 재현

HeyGen, 1080p 무제한 길이 아바타 영상 생성 Avatar V — 동작·표정·화법 재현

HeyGen이 참조 영상 전체 토큰 시퀀스에 조건화하는 생산 규모 아바타 생성 프레임워크 Avatar V를 공개했습니다. 정적 이미지 기반 기존 방식과 달리, Sparse Reference Attention으로 긴 참조 영상의 동적 행동 패턴(말하기 리듬, 미세 표정)까지 재현합니다. 100M+ 클립 데이터, 5단계 학습(flow matching → personality fine-tuning → 2단계 distillation 10x 가속 → RLHF)으로 Seedance 2.0, Veo 3.1 등 최신 시스템을 자동·인간 평가에서 능가했지만, 수천 GPU 규모 인프라가 필요해 재현성은 제한적입니다.

HeyGen이 참조 영상 전체를 조건으로 삼아 아바타의 정적 외형뿐 아니라 말투·제스처·표정까지 재현하는 Avatar V를 발표했습니다.

핵심 결론

  • 태스크참조 영상 기반 아바타 영상 생성 — 1080p, 무제한 길이.
  • 성능Seedance 2.0, Kling O3 Pro, Veo 3.1, OmniHuman 1.5 대비 identity 보존·립싱크·화질에서 SOTA.
  • 평가자동 메트릭과 인간 평가 모두에서 일관된 우위를 보였습니다.

방법

  • 참조 조건화고정 크기 임베딩 대신 참조 영상 전체 토큰 시퀀스에 attention으로 조건화.
  • Sparse Reference Attention비대칭 attention으로 선형 복잡도 — 긴 참조 영상도 처리 가능.
  • 모션 스트림폐루프 말하기 스타일 전이를 위한 별도 모션 표현 스트림.
  • 초해상도Identity-aware refiner가 참조 조건화를 그대로 이어받아 디테일 보존.
  • 데이터·학습50M 원본 영상에서 100M+ 클립 큐레이션, 5단계 파이프라인(flow matching → personality fine-tuning → 2단계 distillation 10x 가속 → RLHF).

한계·조건

  • 인프라수천 GPU 규모로 학습되어 재현성이 낮습니다.
  • 공개논문과 Hugging Face 페이지는 공개되었으나, 코드나 가중치는 아직 공개되지 않았습니다.
  • 벤치자체 cross-scene benchmark에서 평가 — 외부 벤치마크 결과는 아직 보고되지 않았습니다.

편집자 한 줄

동적 행동 패턴까지 재현한다는 점은 인상적이지만, 공개된 정보만으로는 실제 일반화 성능을 판단하기 어렵습니다.

  • #avatar
  • #video-generation
  • #heygen
  • #attention
  • #rlhf
HeyGen
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —