← Back to feed
Papers·어제

KAIST, 다중 뷰 3D VQA를 위한 밀집 보상 학습 프레임워크 DR-MV3D 공개

KAIST, 다중 뷰 3D VQA를 위한 밀집 보상 학습 프레임워크 DR-MV3D 공개

KAIST 연구팀이 다중 뷰 3D VQA(MV3D-VQA)에서 일관된 추론과 시점 선택을 개선하는 밀집 보상 학습 프레임워크 DR-MV3D를 제안했습니다. 이 방법은 전역 맵 일관성 보상과 로컬 궤적 보상을 통해 중간 단계를 지도하며, GRPO로 전체 파이프라인을 최적화합니다. MindCube, VSI-Bench, BLINK(MV) 벤치마크에서 강력한 다중 이미지 기준선 대비 일관된 성능 향상을 보였습니다.

KAIST 연구팀이 다중 뷰 3D VQA의 일관된 추론과 시점 선택을 위한 밀집 보상 학습 프레임워크 DR-MV3D를 발표했습니다.

핵심 결론

  • 태스크MV3D-VQA에서 다중 뷰 부분 관측을 통합한 3D 추론 및 시점 계획 성능 향상.
  • 벤치마크MindCube, VSI-Bench, BLINK(MV)에서 기존 다중 이미지 baseline 대비 일관된 개선.

방법

  • 분해MV3D-VQA를 전역 맵 구축, 질문 조건 시점 궤적 계획, 자아 중심 정답 예측의 세 단계로 분해.
  • 보상전역 일관성 보상(예측 맵과 VGGT+SAM3의 기하 일치)과 로컬 궤적 보상(순차 시점 선택)을 도입.
  • 최적화GRPO(Group Relative Policy Optimization)로 궤적 수준 정책 최적화.

한계·조건

  • 의존성3D 비전 기반 모델(VGGT, SAM3)의 pseudo target에 의존, 해당 모델의 오차가 전파될 가능성.
  • 데이터벤치마크별로 다른 뷰 수와 질문 유형에 대한 일반화는 추가 검증 필요.
  • 코드현재 코드 공개 여부는 명시되지 않음.

편집자 한 줄

중간 단계에 밀집 보상을 주는 접근은 기존 sparse supervision의 한계를 잘 짚었습니다. 다만 pseudo target 품질에 민감할 수 있어, 다양한 3D foundation model과의 조합 실험이 더 보강되면 좋겠네요.

  • #3d-vqa
  • #multi-view
  • #dense-reward
  • #kaist
KAIST AI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —