Papers·3일 전
RADIO-ViPE: 단안 RGB 영상으로 개방형 어휘 의미 정합을 수행하는 온라인 SLAM

RADIO-ViPE는 단안 RGB 비디오 스트림만으로 임의의 자연어 질의를 3D 공간의 객체·영역에 정합하는 온라인 의미 SLAM 시스템입니다. 기존 방식이 보정된 RGB-D 입력을 요구하는 반면, RADIO-ViPE는 사전 캘리브레이션이나 깊이 센서 없이도 동작하며, RADIO 같은 집합형 기초 모델의 멀티모달 임베딩을 기하 정보와 결합해 지도를 구성합니다. 동적 TUM-RGBD 벤치마크에서 최고 성능을 기록했지만, 정적 장면을 가정하는 오프라인 방식과의 비교라는 점을 감안해야 합니다.
- #slam
- #open-vocabulary
- #monocular
- #radion
- #dynamic-scenes
Zaid Nasser