Papers·2주 전
단일 이미지로 50개 가구 카테고리의 3D 대응점 예측 — HouseCorr3D 벤치마크와 Morpheus 방법

Generative Intelligence Lab 팀이 단일 이미지에서 카테고리 수준의 3D 대응점을 예측하는 HouseCorr3D 벤치마크와 Morpheus 방법을 공개했습니다. 50개 가구 카테고리, 280개 인스턴스, 178K 이미지로 구성된 대규모 데이터셋이며, 명시적인 대응점 지도 없이 형태 변형 가능한 공유 사전(morphable prior)을 학습해 의미적 3D 대응이 암시적으로 나타납니다. 단, 카메라 공간에서의 대응점 예측이며, 가려진 영역에 대한 amodal 레이블과 대칭 주석이 포함된 점이 기존 데이터셋 대비 강점입니다.
단일 이미지에서 가구 카테고리 간 일관된 3D 대응점을 예측하는 연구로, 명시적 지도 없이 형태 변형 가능한 사전 학습을 통해 의미적 대응이 암시적으로 학습됩니다.
핵심 결론
- 벤치마크 — HouseCorr3D는 50개 가구 카테고리, 280개 인스턴스, 178K 이미지로 구성된 최초의 대규모 단일 이미지 3D 대응점 데이터셋입니다.
- 방법 성능 — Morpheus는 명시적 대응점 지도 없이도 HouseCorr3D에서 SOTA를 달성, 의미적 3D 객체 이해가 직접적인 지도 없이도 가능함을 보였습니다.
방법
- 핵심 아이디어 — 정규 형태(canonical shape), 변형(deformation), 객체 포즈를 분리하는 형태 변형 가능한 카테고리 수준의 형태 사전을 학습합니다.
- 암시적 대응 — 공유된 정규 기준(shared canonical grounding)을 통해 카메라 공간에서 의미적으로 일관된 3D 대응이 암시적으로 나타납니다.
- 데이터셋은 가려진 영역에 대한 amodal 레이블과 명시적 대칭 주석을 제공하여 기존 데이터셋의 한계를 해결합니다.
한계·조건
- 범위 — 50개 가구 카테고리로 제한되며, 변형이 큰 비정형 객체(예: 의자 대비 침대)에서는 일반화 성능이 검증되지 않았습니다.
- 재현성 — 데이터와 코드는 GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
가려진 영역에 대한 amodal 대응점 예측이 실제 로봇 조작이나 AR에서 얼마나 유용할지는 추가 실험이 필요해 보입니다.
- #3d-correspondence
- #category-level
- #pose-estimation
- #morphable-model
- #generative-intelligence-lab
Generative Intelligence Lab