Papers·2일 전
TrackCraft3R: 비디오 DiT를 3D 추적기로 전환 — 단안 비디오에서 밀집 3D 추적 SOTA
Google 연구진이 비디오 diffusion transformer(DiT)를 참조-앵커 기반 밀집 3D 추적기로 변환하는 TrackCraft3R을 제안했습니다. 기존 방법은 합성 데이터 학습이나 정적 멀티뷰 파인튜닝에 의존해 실제 움직임 사전이 부족했지만, TrackCraft3R은 프레임별 생성 패러다임을 참조-앵커 추적으로 전환하는 이중 잠재 표현과 시간 RoPE 정렬을 도입해 LoRA 파인튜닝으로 해결합니다. 표준 3D 추적 벤치마크에서 SOTA를 달성했으며, 이전 최고 방법보다 1.3배 빠르고 최대 메모리는 4.6배 적게 사용합니다. 단, 단일 GPU 환경에서의 효율성은 추가 검증이 필요합니다.
- #3d-tracking
- #video-diffusion
- #monocular-video
Google