Papers·4일 전
RayDer: 단일 트랜스포머로 카메라 추정·장면 재구성·렌더링 통합 — 자기지도 NVS 의 스케일링 문제 해결

CompVis 팀이 자기지도 novel view synthesis(NVS)를 단일 트랜스포머 백본으로 통합한 RayDer를 공개했습니다. 동적 콘텐츠를 nuisance factor로 처리해 실제 비디오에서 안정적 학습이 가능하며, 데이터·compute에 대해 깔끔한 power-law 스케일링을 보입니다. 여러 벤치마크에서 지도학습 기반 SOTA에 준하는 zero-shot 성능을 달성했지만, 4D 동적 장면 재구성은 목표가 아니라는 점이 한계입니다.
CompVis 팀이 자기지도 NVS를 단일 트랜스포머로 통합한 RayDer를 발표했습니다.
핵심 결론
- 태스크 — 자기지도 novel view synthesis — 동적 비디오로부터 정적 장면의 새로운 시점을 합성.
- 성능 — 여러 벤치마크에서 지도학습 SOTA에 준하는 zero-shot 성능을 기록.
- 스케일링 — 데이터·compute에 대해 clean power-law scaling을 보이며, 정적 장면 데이터 혼합보다 우수.
방법
- 통합 아키텍처 — 카메라 추정, 장면 재구성, 렌더링을 하나의 트랜스포머 백본으로 통합해 단일 모델 스케일링 문제로 전환.
- 동적 처리 — 최소한의 dynamic state(nuisance factor)를 도입해 시간에 따른 변화를 흡수, 실제 비디오에서 안정적 학습 가능.
- 정적 장면 NVS를 유지하며 동적 콘텐츠는 오직 확장 가능한 감독 신호로만 활용 — 4D 재구성과 다름.
한계·조건
- 목표 범위 — 동적 장면(4D) 재구성은 대상이 아니며, 정적 장면 NVS에 집중.
- 재현성 — 프로젝트 페이지에서 코드·모델 공개 예정 — 현재는 논문과 figure만 공개.
- 데이터 규모 — 스케일링 실험은 특정 데이터셋(RealEstate10K 등)에 국한, 일반화 검증 필요.
편집자 한 줄
단일 모델로 NVS 파이프라인 전체를 end-to-end 학습한 점이 인상적이며, nuisance factor 아이디어는 다른 비전 태스크에도 확장 가능해 보입니다.
- #novel-view-synthesis
- #self-supervised
- #transformer
- #compvis
- #scaling
CompVis