Papers·2일 전
Zhejiang University, 시점 차이 큰 이미지 매칭 위한 ReasonMatch-Bench + DCRL 제안 — 어려운 subset에서 인간 84.0 F1 대비 최고 baseline 37.2

Zhejiang University 팀이 시점 차이가 큰 이미지 간 대응점 매칭(WBM)을 평가하는 ReasonMatch-Bench를 공개했습니다. 어려운 90샘플 subset에서 인간 F1 84.0 대비 최고 baseline은 37.2에 그쳐 현재 MLLM의 한계를 드러냅니다. 이를 해결하기 위해 대규모 비디오-3D 데이터에서 자동으로 WBM 쌍을 추출하는 파이프라인과, 이미지 수준 시점 진행 및 점 수준 대응 커리큘럼을 결합한 강화학습(DCRL)을 제안했습니다. 단, 데이터 생성 파이프라인이 RGB-D 비디오와 SfM 재구성에 의존하므로 도메인 범용성은 추가 검증이 필요합니다.
Zhejiang University 팀이 시점 차이가 큰 이미지 매칭(WBM)을 위한 벤치마크와 강화학습 기반 훈련 프레임워크를 제안했습니다.
핵심 결론
- 벤치 — ReasonMatch-Bench는 실내·실외·객체 중심 시나리오에서 시점 변위와 매칭 세분성에 따라 계층화되었습니다.
- 성능 — 어려운 90샘플 subset에서 인간 F1 84.0 대비 최고 baseline(아마 GPT-4V 등)은 37.2에 불과합니다.
- 개선 — 제안한 DCRL로 훈련한 모델은 ReasonMatch-Bench에서 크게 향상되고 관련 공간 벤치마크로 전이됩니다.
방법
- 데이터 생성 — RGB-D 비디오와 SfM 재구성에서 자동으로 WBM 뷰 쌍을 추출하는 파이프라인을 구축했습니다.
- DCRL — 이미지 수준 시점 진행(Image-Level Viewpoint Progression)과 점 수준 대응 커리큘럼(Point-Level Correspondence Curriculum)을 결합한 강화학습입니다.
- 명시적 CoT 없이 검증 가능한 보상(verifiable reward)으로 WBM 훈련을 개선하는 점이 특징입니다.
한계·조건
- 데이터 의존성 — 파이프라인은 RGB-D 비디오와 SfM 재구성에 의존하므로, 해당 데이터가 없는 도메인에서는 적용이 어려울 수 있습니다.
- 벤치 규모 — 어려운 subset이 90샘플로 작아 통계적 유의성에 주의가 필요합니다.
- 코드 — 논문에는 코드 공개 여부가 명시되지 않았습니다.
편집자 한 줄
데이터 생성 파이프라인의 자동화는 흥미롭지만, 실제 로봇 환경에서의 일반화는 추가 실험이 필요해 보입니다.
- #wide-baseline-matching
- #mllm
- #benchmark
- #zhejiang-university
- #reinforcement-learning
Zhejiang University