Papers·2일 전
NVIDIA, 4D 메시 생성 13배 가속 — Spatio-Temporal Attention Chain으로 9초 처리

NVIDIA 연구팀이 비디오에서 동적 3D 구조를 복원하는 4D 메시 생성을 9초로 단축하는 학습 없는 프레임워크를 제안했습니다. Spatio-Temporal Attention Chain을 통해 앵커 메시의 정점을 잠재 토큰으로 매핑하고 시공간 대응 관계를 따라 프레임별 정점을 복원해, 기존 대비 13배 빠르면서도 더 높은 품질의 메시를 생성합니다. 16배 긴 비디오에도 확장 가능하며, 2D 객체 추적과 4D 추적에서 제로샷 성능이 경쟁력 있고, 카메라 추정까지 지원하는 점이 특징입니다. 다만 메시 품질이 시각적 정확도보다 대응 관계에 의존하는 특성이 있어, 복잡한 움직임에서 한계가 있을 수 있습니다.
- #4d-mesh
- #video
- #nvidia
- #attention
NVIDIA