Papers·1개월 전

서울대 CIPER, 단일 아키텍처로 도시 규모 검색과 정밀 자세 추정 동시 해결

서울대 연구팀이 지상 이미지와 항공 이미지 간의 교차 뷰 위치 추정을 위해 단일 트랜스포머 기반 아키텍처 CIPER를 제안했습니다. CIPER는 공유 인코더에 태스크별 토큰을 추가해 검색과 자세 추정 특징을 분리하고, 양방향 크로스 어텐션 디코더로 도메인 차이를 극복합니다. VIGOR, KITTI, Ford Multi-AV 벤치마크에서 경쟁력 있는 성능을 보였으며, 특히 제한된 시야와 임의 방향 조건에서 강점을 보입니다. 코드는 공개되었습니다.

서울대 연구팀이 지상 이미지로 항공 데이터베이스에서 위치를 찾는 문제를 위해 검색과 정밀 자세 추정을 단일 모델로 통합한 CIPER를 공개했습니다.

핵심 결론

태스크 — 도시 규모 검색과 3-DoF 자세 추정을 동시에 수행하는 단일 아키텍처.
성능 — VIGOR, KITTI, Ford Multi-AV에서 경쟁력 있는 결과, 특히 제한된 시야와 임의 방향에서 강함.

방법

공유 인코더 — 지상·항공 이미지에 동일한 트랜스포머 인코더를 적용하고, 검색용 [RET] 토큰과 자세용 [POSE] 토큰을 분리.
양방향 디코더 — 지상 특징을 공간 쿼리로 사용해 항공 특징과 양방향 크로스 어텐션 수행, 도메인 차이 완화.
세트 예측 — 3-DoF 자세를 세트 예측 방식으로 회귀, 다중 태스크 손실로 안정적 학습.

한계·조건

벤치마크가 주로 실내·도시 환경에 국한되어 있어, 시골이나 지형 변화가 큰 곳에서의 일반화는 추가 검증이 필요합니다.
코드 — GitHub에 공개되어 재현 가능.

편집자 한 줄

검색과 자세 추정을 하나의 모델로 묶은 설계가 깔끔하고, 양방향 크로스 어텐션으로 도메인 차이를 줄인 점이 인상적입니다.

#cross-view-geo-localization
#transformer
#seoul-national-university

Seoul National University

원문 보기 →

서울대 CIPER, 단일 아키텍처로 도시 규모 검색과 정밀 자세 추정 동시 해결

핵심 결론

방법

한계·조건

Comments