Papers·1개월 전

Surflo: 가변 뷰를 단일 잠재로 압축하는 3D 표면 재구성

Surflo는 임의 개수의 정렬되지 않은 RGB 뷰를 K개의 잠재 토큰(단일 전역 상태)으로 압축하고, flow matching을 통해 노이즈에서 표면으로 3D 점을 독립적으로 운반하여 고정 해상도 없이 수천에서 수백만 점까지 디코딩합니다. 추론 시 photometric gradient를 ODE 통합에 주입하여 이웃 점 간의 일관성을 유지하며, 표면 메트릭에서 피드포워드 기준선과 동등하거나 능가하고 최적화 기반 방법보다 10배 빠릅니다. 단, 독립 점 디코딩의 국소적 불일치를 보정하기 위해 추론 시간이 약간 증가합니다.

Surflo는 가변 뷰를 단일 전역 잠재로 압축하고, flow matching으로 임의 해상도의 3D 표면 점을 디코딩하는 피드포워드 모델입니다.

핵심 결론

성능 — 표면 메트릭(Chamfer distance, F-score)에서 기존 피드포워드 기준선과 동등하거나 능가.
속도 — 수백 뷰가 필요한 최적화 기반 방법보다 약 10배 빠름.
출력 유연성 — 동일한 잠재에서 수천~수백만 점까지 단일 포워드 패스로 디코딩 가능.

방법

전역 잠재 — 가변 개수의 unposed RGB 이미지를 K개의 latent 토큰으로 압축하여 단일 3D 상태 표현.
Flow matching — 노이즈에서 표면으로 각 3D 점을 독립적으로 운반, 고정 그리드나 토큰 수 제약 없음.
추론 가이던스 — ODE 통합 중 photometric gradient를 주입하여 이웃 점 간의 일관성 확보.

한계·조건

추론 시간 — 독립 점 디코딩의 국소적 불일치 보정을 위해 추가 ODE 단계가 필요, 추론 시간이 소폭 증가.
벤치마크 — 주로 합성 데이터(Objaverse, MVImgNet)에서 평가, 실제 복잡한 장면 일반화는 추가 검증 필요.
코드 — 현재 논문 단계, 코드 공개 여부 미정.

편집자 한 줄

전역 잠재 + flow matching 조합으로 해상도 독립적 디코딩을 실현한 점이 인상적이지만, 추론 가이던스의 오버헤드가 실제 사용에서 얼마나 큰지가 관건일 듯합니다.

#3d-reconstruction
#flow-matching
#surflo
#feed-forward

Antoine Guédon

원문 보기 →

Surflo: 가변 뷰를 단일 잠재로 압축하는 3D 표면 재구성

핵심 결론

방법

한계·조건

Comments