← Back to feed
Papers·2일 전

Zhejiang University, 시점 차이 큰 이미지 매칭 위한 ReasonMatch-Bench + DCRL 제안 — 어려운 subset에서 인간 84.0 F1 대비 최고 baseline 37.2

Zhejiang University, 시점 차이 큰 이미지 매칭 위한 ReasonMatch-Bench + DCRL 제안 — 어려운 subset에서 인간 84.0 F1 대비 최고 baseline 37.2

Zhejiang University 팀이 시점 차이가 큰 이미지 간 대응점 매칭(WBM)을 평가하는 ReasonMatch-Bench를 공개했습니다. 어려운 90샘플 subset에서 인간 F1 84.0 대비 최고 baseline은 37.2에 그쳐 현재 MLLM의 한계를 드러냅니다. 이를 해결하기 위해 대규모 비디오-3D 데이터에서 자동으로 WBM 쌍을 추출하는 파이프라인과, 이미지 수준 시점 진행 및 점 수준 대응 커리큘럼을 결합한 강화학습(DCRL)을 제안했습니다. 단, 데이터 생성 파이프라인이 RGB-D 비디오와 SfM 재구성에 의존하므로 도메인 범용성은 추가 검증이 필요합니다.

Zhejiang University 팀이 시점 차이가 큰 이미지 매칭(WBM)을 위한 벤치마크와 강화학습 기반 훈련 프레임워크를 제안했습니다.

핵심 결론

  • 벤치ReasonMatch-Bench는 실내·실외·객체 중심 시나리오에서 시점 변위와 매칭 세분성에 따라 계층화되었습니다.
  • 성능어려운 90샘플 subset에서 인간 F1 84.0 대비 최고 baseline(아마 GPT-4V 등)은 37.2에 불과합니다.
  • 개선제안한 DCRL로 훈련한 모델은 ReasonMatch-Bench에서 크게 향상되고 관련 공간 벤치마크로 전이됩니다.

방법

  • 데이터 생성RGB-D 비디오와 SfM 재구성에서 자동으로 WBM 뷰 쌍을 추출하는 파이프라인을 구축했습니다.
  • DCRL이미지 수준 시점 진행(Image-Level Viewpoint Progression)과 점 수준 대응 커리큘럼(Point-Level Correspondence Curriculum)을 결합한 강화학습입니다.
  • 명시적 CoT 없이 검증 가능한 보상(verifiable reward)으로 WBM 훈련을 개선하는 점이 특징입니다.

한계·조건

  • 데이터 의존성파이프라인은 RGB-D 비디오와 SfM 재구성에 의존하므로, 해당 데이터가 없는 도메인에서는 적용이 어려울 수 있습니다.
  • 벤치 규모어려운 subset이 90샘플로 작아 통계적 유의성에 주의가 필요합니다.
  • 코드논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

데이터 생성 파이프라인의 자동화는 흥미롭지만, 실제 로봇 환경에서의 일반화는 추가 실험이 필요해 보입니다.

  • #wide-baseline-matching
  • #mllm
  • #benchmark
  • #zhejiang-university
  • #reinforcement-learning
Zhejiang University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —