Papers·1개월 전

RayDer: 단일 트랜스포머로 카메라 추정·장면 재구성·렌더링 통합 — 자기지도 NVS 의 스케일링 문제 해결

CompVis 팀이 자기지도 novel view synthesis(NVS)를 단일 트랜스포머 백본으로 통합한 RayDer를 공개했습니다. 동적 콘텐츠를 nuisance factor로 처리해 실제 비디오에서 안정적 학습이 가능하며, 데이터·compute에 대해 깔끔한 power-law 스케일링을 보입니다. 여러 벤치마크에서 지도학습 기반 SOTA에 준하는 zero-shot 성능을 달성했지만, 4D 동적 장면 재구성은 목표가 아니라는 점이 한계입니다.

CompVis 팀이 자기지도 NVS를 단일 트랜스포머로 통합한 RayDer를 발표했습니다.

핵심 결론

태스크 — 자기지도 novel view synthesis — 동적 비디오로부터 정적 장면의 새로운 시점을 합성.
성능 — 여러 벤치마크에서 지도학습 SOTA에 준하는 zero-shot 성능을 기록.
스케일링 — 데이터·compute에 대해 clean power-law scaling을 보이며, 정적 장면 데이터 혼합보다 우수.

방법

통합 아키텍처 — 카메라 추정, 장면 재구성, 렌더링을 하나의 트랜스포머 백본으로 통합해 단일 모델 스케일링 문제로 전환.
동적 처리 — 최소한의 dynamic state(nuisance factor)를 도입해 시간에 따른 변화를 흡수, 실제 비디오에서 안정적 학습 가능.
정적 장면 NVS를 유지하며 동적 콘텐츠는 오직 확장 가능한 감독 신호로만 활용 — 4D 재구성과 다름.

한계·조건

목표 범위 — 동적 장면(4D) 재구성은 대상이 아니며, 정적 장면 NVS에 집중.
재현성 — 프로젝트 페이지에서 코드·모델 공개 예정 — 현재는 논문과 figure만 공개.
데이터 규모 — 스케일링 실험은 특정 데이터셋(RealEstate10K 등)에 국한, 일반화 검증 필요.

편집자 한 줄

단일 모델로 NVS 파이프라인 전체를 end-to-end 학습한 점이 인상적이며, nuisance factor 아이디어는 다른 비전 태스크에도 확장 가능해 보입니다.

#novel-view-synthesis
#self-supervised
#transformer
#compvis
#scaling

CompVis

원문 보기 →

RayDer: 단일 트랜스포머로 카메라 추정·장면 재구성·렌더링 통합 — 자기지도 NVS 의 스케일링 문제 해결

핵심 결론

방법

한계·조건

Comments