Papers·4일 전
SurGe: 피드포워드 3D 재구성의 국소 표면 정밀도를 높이는 Neighborhood Attention Decoder

RWTH Computer Vision Group이 피드포워드 3D 재구성에서 국소 표면 기하 오류를 줄이는 SurGe 모델을 발표했습니다. 기존 메트릭이 잘 반영하지 못하는 국소 표면 부정확성을 명시적으로 평가하기 위해 point map normal 메트릭을 도입하고, depth 정규화 3D 유한 차분을 감독하는 point gradient matching loss와 Neighborhood Attention Decoder(NAD)를 제안합니다. 8개 zero-shot 단안 기하 벤치마크에서 global point map AbsRel 최고 평균 순위를 달성하고, 국소 point map 및 normal 평가에서도 일관된 개선을 보였습니다.
RWTH 팀이 피드포워드 3D 재구성의 국소 표면 정밀도를 높이는 SurGe 모델을 공개했습니다.
핵심 결론
- 태스크 — 단안 이미지로부터 3D point map 예측 — 국소 표면 기하 정밀도 개선.
- 벤치마크 — 8개 zero-shot 단안 기하 벤치마크 평균에서 global point map AbsRel 최고 순위.
- 메트릭 — 기존 메트릭이 놓치는 국소 오류를 포착하는 point map normal 메트릭을 새로 제안.
방법
- Point gradient matching loss — Depth 정규화된 3D 유한 차분을 감독해 국소 표면 방향을 더 정확하게 학습.
- Neighborhood Attention Decoder — 특징을 점진적으로 업샘플링하고 Neighborhood Attention으로 국소 특징 혼합을 수행하는 디코더.
- 두 구성 요소가 상호 보완적이며, global과 local 모두에서 성능 향상을 가져옵니다.
한계·조건
- 평가 — Zero-shot 평가만 수행되었으며, fine-tuning 시 추가 개선 가능성은 미확인.
- 코드 — 현재 코드 공개 여부는 명시되지 않았습니다.
편집자 한 줄
국소 표면 오류를 직접 감독하는 손실 함수와 디코더 디자인이 실용적으로 잘 맞물린 케이스네요.
- #3d-reconstruction
- #monocular-depth
- #attention
- #rwth
RWTH Computer Vision Group