Papers·2주 전
3D 인식 후처리로 2D 파운데이션 feature 의 semantic correspondence 개선 — SPair-71k 에서 5.2% 향상

Generative Intelligence Lab 팀이 2D 파운데이션 feature(DINO, Stable Diffusion)에 3D 기반 모델(SAM3D)의 geometry prior 를 결합해 semantic correspondence 를 개선하는 후처리 프레임워크를 제안했습니다. SAM3D로 객체 형상과 포즈를 추정한 후 render-and-compare로 포즈를 정제하고, 복원된 3D 형상에서 PartField descriptor 를 이미지 평면에 렌더링해 3D-aware feature map을 생성합니다. 이 feature로 후보 대응점을 필터링하고 adapter를 학습시켜 SPair-71k 벤치마크에서 기존 방법 대비 5.2% 향상된 PCK를 달성했습니다. 단, SAM3D 추론이 추가로 필요해 실시간 추론에는 부적합합니다.
2D 파운데이션 feature는 대칭면이나 반복 패턴에서 3D 구분이 어려운데, 3D 기반 모델의 geometry prior를 주입해 이 문제를 해결한 연구입니다.
핵심 결론
- 벤치 — SPair-71k 데이터셋에서 PCK 기준 기존 방법 대비 5.2% 향상.
- 기여 — pose annotation 없이 instance-specific 3D 구조를 자동 획득해 correspondence 학습을 가이드한 점이 핵심.
방법
- 3D 추정 — SAM3D로 객체 형상과 초기 포즈를 추정하고, render-and-compare 최적화로 포즈를 정제합니다.
- Feature 렌더링 — 복원된 3D 형상에서 PartField descriptor를 이미지 평면에 렌더링해 geometry-aware feature map을 생성합니다.
- Adapter 학습 — 3D feature로 필터링된 대응점을 supervision으로 DINO/Stable Diffusion 위에 lightweight adapter를 학습.
한계·조건
- 속도 — SAM3D 추론과 render-and-compare 최적화가 추가로 들어가 실시간 추론에는 부적합합니다.
- 코드 — GitHub 공개 — https://github.com/GenIntel/3D-SC
편집자 한 줄
3D prior를 2D feature에 주입하는 방향은 semantic correspondence에서 꾸준히 시도되는 접근인데, pose annotation 없이 SAM3D로 자동화한 점이 실용적입니다.
- #semantic-correspondence
- #3d-awareness
- #self-supervised
- #diffusion
- #generative-intelligence-lab
Generative Intelligence Lab