Papers·2일 전
PlatonicNav: 훈련 없는 임베디드 내비게이션 — ObjNav·VLN 을 동일한 의미 매니폴드로 통합

AIGeeksGroup 이 PlatonicNav 라는 훈련 없는 프레임워크를 공개했습니다. 시뮬레이션(HM3D-IIN, OVON, R2R-CE)과 실제 로봇(Unitree Go2)에서 ObjNav 와 VLN 을 단일 토폴로지 맵으로 처리하며, 별도의 시각-언어 데이터 없이도 언어 목표를 grounding 할 수 있음을 보였습니다. 핵심은 자가지도 시각 인코더의 기하·의미 거리를 융합한 Platonic Topological Map 으로, CLIP 이나 대규모 VLM 없이도 cross-modal 정렬이 가능하다는 점이 흥미롭습니다. 단, 실험은 특정 벤치마크와 로봇에 국한되어 있어 일반화 정도는 추가 검증이 필요합니다.
AIGeeksGroup 이 ObjNav 와 VLN 을 하나의 의미 매니폴드로 통합하는 훈련 없는 프레임워크 PlatonicNav 를 제안했습니다.
핵심 결론
- 성능 — HM3D-IIN ObjNav 에서 SPL 0.42, OVON 에서 success rate 0.64, R2R-CE VLN 에서 success rate 0.48 — 모두 기존 훈련 기반 방법과 비슷하거나 더 나은 수준.
- 일반화 — 시뮬레이션 3개 벤치마크와 실제 Unitree Go2 로봇에서 동일한 맵 구조로 동작하며, cross-modal 훈련 없이 언어 목표를 grounding.
방법
- Platonic Topological Map — DINOv2 같은 자가지도 시각 인코더의 특징을 사용해 노드 간 기하 거리와 의미 거리를 융합한 토폴로지 맵을 구축.
- 언어 grounding — 언어 목표를 CLIP 이나 VLM 없이, 미리 구축된 의미 노드에 대해 blind matching 으로 매칭 — paired 데이터가 전혀 필요 없음.
- 훈련 불필요 — 사전 훈련된 시각 인코더만 사용하고, 내비게이션을 위한 추가 훈련이나 fine-tuning 이 전혀 없음.
한계·조건
- 벤치마크 — HM3D, MP3D, OVON 등 특정 시뮬레이터와 환경에 국한 — 더 다양한 환경에서의 검증이 필요.
- 맵 규모 — 토폴로지 맵의 노드 수가 제한적이며, 대규모 환경에서의 확장성은 아직 확인되지 않음.
- 코드 — GitHub 에 코드와 웹사이트가 공개되어 재현 가능.
편집자 한 줄
CLIP 없이도 언어 grounding 이 된다는 점이 인상적이지만, blind matching 의 정확도가 환경 변화에 얼마나 robust 한지는 추가 실험이 필요해 보입니다.
- #embodied-navigation
- #object-goal-navigation
- #vision-language-navigation
- #topological-map
- #self-supervised
Maincode