Papers·1개월 전

SCAIL-2: 중간 표현 없이 드라이빙 비디오를 직접 입력받는 엔드-투-엔드 캐릭터 애니메이션

SCAIL-2는 기존의 포즈 스켈레톤이나 마스킹된 배경 같은 중간 표현을 생략하고 드라이빙 비디오를 직접 입력받아 캐릭터 애니메이션을 수행하는 프레임워크입니다. 엔드-투-엔드 학습을 위해 합성 데이터셋 MotionPair-60K를 구축하고, 인컨텍스트 마스크 조건화와 모드별 RoPE를 활용해 이질적인 태스크를 통합했습니다. 다양한 캐릭터 애니메이션 태스크에서 기존 SOTA를 크게 능가하며, 합성 데이터와 모델 가중치를 공개할 예정입니다.

중간 표현 없이 드라이빙 비디오를 직접 입력받아 캐릭터 애니메이션을 수행하는 엔드-투-엔드 프레임워크 SCAIL-2가 공개되었습니다.

핵심 결론

태스크 — 드라이빙 비디오에서 참조 캐릭터로 모션을 전이하는 캐릭터 애니메이션.
성능 — 기존 SOTA 대비 다양한 태스크에서 일관되게 우수한 성능을 보였습니다.

방법

아이디어 — 드라이빙 비디오를 직접 입력 시퀀스에 이어붙여 중간 표현 없이 모든 시각 정보를 활용합니다.
데이터 — 이질적인 캐릭터 애니메이션 태스크를 통합하기 위해 합성 파이프라인으로 MotionPair-60K 데이터셋을 구축했습니다.
조건화 — 인컨텍스트 마스크 조건화와 모드별 RoPE를 도입해 텍스트와 원시 영상 외의 소프트 가이드로 활용합니다.
세부 개선 — Bias-Aware DPO를 제안해 합성 데이터의 세부 영역 오류를 완화했습니다.

한계·조건

데이터 — 대규모 합성 데이터에 의존하며, 실제 환경에서의 일반화는 추가 검증이 필요합니다.
공개 — 합성 데이터의 큰 부분과 모델 가중치를 프로젝트 페이지에서 공개할 예정입니다.

편집자 한 줄

중간 표현을 생략한 엔드-투-엔드 접근이 얼마나 일반화될지, 특히 실제 영상에서의 성능이 궁금하네요.

#character-animation
#end-to-end
#motion-transfer
#diffusion
#synthetic-data

Wenhao Yan

원문 보기 →

SCAIL-2: 중간 표현 없이 드라이빙 비디오를 직접 입력받는 엔드-투-엔드 캐릭터 애니메이션

핵심 결론

방법

한계·조건

Comments