Papers·어제
VGGT-Edit: 피드포워드 3D 장면 편집 — 텍스트 조건부, 깊이 동기화로 2D-리프팅 한계 극복

Peking University 팀이 텍스트 조건으로 3D 장면을 직접 편집하는 피드포워드 프레임워크 VGGT-Edit를 제안했습니다. 2D-리프팅 방식의 뷰 불일치와 블러 문제를 해결하기 위해, 깊이 동기화된 텍스트 임베딩으로 공간 포즈와 의미를 정렬하고 잔차 변환 헤드가 직접 3D 기하 변위를 예측합니다. 자동 생성된 DeltaScene 데이터셋으로 학습한 결과, 기존 대비 날카로운 디테일과 일관된 멀티뷰를 보여주며 거의 실시간 추론이 가능합니다.
- #3d-editing
- #feed-forward
- #text-conditioned
- #peking-university
- #scene-reconstruction
Peking University