← Back to feed
Papers·2주 전

3D 인식 후처리로 2D 파운데이션 feature 의 semantic correspondence 개선 — SPair-71k 에서 5.2% 향상

3D 인식 후처리로 2D 파운데이션 feature 의 semantic correspondence 개선 — SPair-71k 에서 5.2% 향상

Generative Intelligence Lab 팀이 2D 파운데이션 feature(DINO, Stable Diffusion)에 3D 기반 모델(SAM3D)의 geometry prior 를 결합해 semantic correspondence 를 개선하는 후처리 프레임워크를 제안했습니다. SAM3D로 객체 형상과 포즈를 추정한 후 render-and-compare로 포즈를 정제하고, 복원된 3D 형상에서 PartField descriptor 를 이미지 평면에 렌더링해 3D-aware feature map을 생성합니다. 이 feature로 후보 대응점을 필터링하고 adapter를 학습시켜 SPair-71k 벤치마크에서 기존 방법 대비 5.2% 향상된 PCK를 달성했습니다. 단, SAM3D 추론이 추가로 필요해 실시간 추론에는 부적합합니다.

2D 파운데이션 feature는 대칭면이나 반복 패턴에서 3D 구분이 어려운데, 3D 기반 모델의 geometry prior를 주입해 이 문제를 해결한 연구입니다.

핵심 결론

  • 벤치SPair-71k 데이터셋에서 PCK 기준 기존 방법 대비 5.2% 향상.
  • 기여pose annotation 없이 instance-specific 3D 구조를 자동 획득해 correspondence 학습을 가이드한 점이 핵심.

방법

  • 3D 추정SAM3D로 객체 형상과 초기 포즈를 추정하고, render-and-compare 최적화로 포즈를 정제합니다.
  • Feature 렌더링복원된 3D 형상에서 PartField descriptor를 이미지 평면에 렌더링해 geometry-aware feature map을 생성합니다.
  • Adapter 학습3D feature로 필터링된 대응점을 supervision으로 DINO/Stable Diffusion 위에 lightweight adapter를 학습.

한계·조건

  • 속도SAM3D 추론과 render-and-compare 최적화가 추가로 들어가 실시간 추론에는 부적합합니다.
  • 코드GitHub 공개 — https://github.com/GenIntel/3D-SC

편집자 한 줄

3D prior를 2D feature에 주입하는 방향은 semantic correspondence에서 꾸준히 시도되는 접근인데, pose annotation 없이 SAM3D로 자동화한 점이 실용적입니다.

  • #semantic-correspondence
  • #3d-awareness
  • #self-supervised
  • #diffusion
  • #generative-intelligence-lab
Generative Intelligence Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —