Papers·1개월 전

ViT-Up: ViT 중간 은닉 상태로 연속 좌표 특징 업샘플링 — Cityscapes mIoU +2.07, SPair-71k PCK +4.17

상하이자오퉁대학 연구팀이 ViT의 중간 은닉 상태로부터 계층별 쿼리를 구성해 임의 연속 좌표에서 특징을 예측하는 암시적 업샘플링 프레임워크 ViT-Up을 제안했습니다. 기존 이미지 가이드 업샘플러와 달리 외부 인코더 없이 백본 특징 정합성을 유지하며, DINOv3-S+ 기준 Cityscapes mIoU +2.07, SPair-71k PCK@0.10 +4.17 개선을 달성했습니다. 더 큰 백본(DINOv3-B)에서도 이득이 커져(+3.36 mIoU, +8.09 PCK) 확장성도 확인됐습니다.

ViT-Up은 ViT의 중간 은닉 상태를 활용해 연속 좌표에서 고해상도 특징을 예측하는 업샘플링 방법입니다.

핵심 결론

태스크 — 의미 분할(Cityscapes), 깊이 추정, 의미 대응(SPair-71k) 등 밀집 예측 태스크에서 일관된 성능 향상.
수치 — DINOv3-S+ 백본: Cityscapes mIoU +2.07, SPair-71k PCK@0.10 +4.17. DINOv3-B: 각각 +3.36, +8.09.
비교 — 최신 이미지 가이드 업샘플러(SFUP, FeatUp 등)를 모든 벤치마크에서 능가.

방법

핵심 아이디어 — ViT의 여러 중간 레이어 은닉 상태로부터 계층별 쿼리를 구성하고, 연속 좌표에서 암시적 신경 표현(INR)을 통해 특징을 예측.
외부 가이드 불필요 — 기존 방법처럼 얕은 이미지 인코더를 따로 쓰지 않아 특징 누수, 파편화, 블러를 방지.
정합성 — 백본 특징 공간과의 정렬을 유지하며 임의 해상도로 업샘플링 가능.

한계·조건

계산량 — 암시적 함수 추론이 추가되어 실시간 추론에는 무거울 수 있음(논문에 속도 분석 없음).
백본 의존 — DINOv3 계열 ViT에 특화되어 설계됨; 다른 아키텍처(CNN, hybrid)로의 일반화는 미검증.
코드 — Hugging Face Papers 링크만 제공되며, 코드 공개 여부는 불명.

편집자 한 줄

특징 업샘플링에서 외부 인코더를 제거한 설계가 깔끔하고, 백본 규모에 따라 성능이 비례하는 점이 인상적입니다. 다만 추론 속도에 대한 정량적 보고가 없어 실용성 평가는 좀 더 지켜봐야겠네요.

#vision-transformer
#feature-upsampling
#dense-prediction
#shanghai-jiao-tong-university

Shanghai Jiao Tong University

원문 보기 →

ViT-Up: ViT 중간 은닉 상태로 연속 좌표 특징 업샘플링 — Cityscapes mIoU +2.07, SPair-71k PCK +4.17

핵심 결론

방법

한계·조건

Comments