Papers·6일 전

Go-with-the-Track: 단일 모델로 포인트 트랙 기반 모션 제어와 참조 이미지 합성을 통합

Eyeline Labs가 다중 참조 이미지와 참조 앵커 포인트 트랙을 동시에 조건으로 하는 비디오 생성 모델 Go-with-the-Track을 공개했습니다. 기존 방식은 포인트 트랙 기반 모션 제어와 참조 이미지 합성을 별도로 처리했지만, 이 모델은 두 기능을 통합해 첫 프레임뿐 아니라 전체 비디오에 걸쳐 정밀한 합성과 모션 제어를 가능하게 합니다. 핵심은 좌표별 MLP와 시간 풀링으로 공간 인식 포인트 트랙 임베딩을 생성하고, 이를 비디오 확산 트랜스포머에 경량 어댑터로 주입하는 방식입니다. 다중 참조 조건부 비디오 생성과 카메라 제어 등 새로운 기능을 지원하지만, 합성 데이터셋을 포함한 하이브리드 학습 전략을 사용해 재현성에 주의가 필요합니다.

Eyeline Labs가 포인트 트랙 기반 모션 제어와 참조 이미지 합성을 단일 모델로 통합한 Go-with-the-Track을 발표했습니다.

핵심 결론

통합 — 포인트 트랙 조건부 이미지-비디오 모델과 참조-비디오 모델의 기능을 하나로 합쳐, 전체 비디오에 걸친 정밀한 합성과 모션 제어를 달성했습니다.
성능 — 단일 모델로 기존 대비 우수한 모션 및 참조 제어를 보이며, 다중 참조 조건부 생성과 카메라 제어 등 새로운 기능을 가능하게 했습니다.

방법

포인트 트랙 임베딩 — 좌표별 MLP와 시간 풀링을 통해 공간 인식 포인트 트랙 임베딩을 생성, 각 트랙의 공간 특성을 인코딩하고 유사도가 공간 근접성과 상관되도록 설계했습니다.
주입 — 이 임베딩을 비디오 확산 트랜스포머에 경량 어댑터로 주입해 픽셀-패치 해상도 불일치를 해결하고, 포인트 트랙 서브샘플링 시 발생하는 모션 디테일 손실을 피했습니다.
학습 — 동적, 정적, 합성 장면 비디오 데이터셋을 함께 사용하는 하이브리드 학습 전략으로 모션 제어 성능을 높였습니다.

한계·조건

데이터 — 합성 데이터셋을 포함한 하이브리드 학습을 사용해 실제 환경에서의 일반화 성능은 추가 검증이 필요합니다.
코드 — 프로젝트 페이지는 공개되었지만, 코드와 모델 가중치는 아직 공개되지 않았습니다.

편집자 한 줄

포인트 트랙 임베딩의 공간 인식 설계가 흥미롭지만, 합성 데이터 의존도가 실제 응용에서 얼마나 견고할지는 지켜볼 점입니다.

#video-generation
#point-tracking
#diffusion
#eyeline-labs

Eyeline Labs

원문 보기 →

Go-with-the-Track: 단일 모델로 포인트 트랙 기반 모션 제어와 참조 이미지 합성을 통합

핵심 결론

방법

한계·조건

Comments