Papers·1개월 전

World Tracing: 픽셀 정렬 3D 생성 — 가려진 면까지 완결된 형상

WORLD LABS TECHNOLOGIES INC가 World Tracing이라는 픽셀 정렬 3D 표현을 제안했습니다. 각 입력 픽셀에 대해 가시 표면부터 가려진 면까지 순서 있는 3D 포인트 스택을 예측하며, WT-DiT라는 diffusion transformer로 구현했습니다. 객체·장면·동적 객체 벤치마크에서 기존 깊이 추정기와 image-to-3D 모델을 모두 능가하는 성능을 보였습니다.

WORLD LABS TECHNOLOGIES INC가 픽셀 정렬 3D 생성의 새 표현을 내놓았습니다. 가시 표면과 가려진 면을 동시에 예측하는 게 핵심입니다.

핵심 결론

태스크 — 단일 이미지에서 픽셀 정렬 3D 형상 생성 — 가시 표면 재구성과 가려진 면 완성 모두 포함.
성능 — 객체·장면·동적 객체 벤치마크에서 기존 깊이 추정기와 image-to-3D 생성기를 모두 능가.
2D-3D 대응 관계를 유지하여 텍스트 기반 3D 편집, 시점 변환 비디오 합성 등에 활용 가능.

방법

표현 — 각 입력 픽셀에 대해 카메라 공간 3D 포인트의 순서 있는 스택을 예측. 첫 번째 레이어는 가시 표면, 이후 레이어는 가려진 면을 앞에서 뒤로 정렬.
모델 — WT-DiT: 여러 기하 레이어를 별도의 denoising token으로 처리하고 factorized attention과 global attention을 결합한 diffusion transformer.
학습 — 픽셀 공간 flow matching과 혼합 노이즈 스케줄로 가시 표면 재구성과 가려진 형상 생성을 균형.

한계·조건

데이터 — 학습에 대규모 3D 데이터셋(Objaverse, MVImgNet 등) 사용 — 재현 시 동일 데이터 필요.
추론 — diffusion 모델 특성상 추론 시간이 단일 패스 모델보다 길 수 있음.
코드 — 현재 abstract와 figure만 공개 — 코드 및 가중치 공개 여부 미정.

편집자 한 줄

픽셀 정렬과 형상 완결성을 동시에 잡는 접근이 깔끔합니다. 다만 diffusion 기반이라 추론 속도가 실시간에 가까울지는 지켜볼 점.

#image-to-3d
#diffusion
#world-labs
#3d-reconstruction

WORLD LABS TECHNOLOGIES INC

원문 보기 →

World Tracing: 픽셀 정렬 3D 생성 — 가려진 면까지 완결된 형상

핵심 결론

방법

한계·조건

Comments