← Back to feed
Papers·4일 전

Phase Marginalization: ViT 패치 그리드 위상 문제를 해결하는 사후 주변화 기법

Phase Marginalization: ViT 패치 그리드 위상 문제를 해결하는 사후 주변화 기법

BILGEM AI 팀이 Vision Transformer의 고정 패치 그리드가 밀집 예측에서 위상 의존적 불안정성을 유발하는 문제를 분석하고, 훈련 없이 여러 패치 위상을 평가·역정렬·통합하는 Phase Marginalization을 제안했습니다. Cityscapes 실험에서 K=4 균일 위상 주변화가 기존 4회 TTA 대비 mIoU 0.31 향상시켰으며, K=8 이상은 실용적 이득이 미미했습니다.

ViT의 고정 패치 그리드는 픽셀 단위 예측에서 위상에 따라 결과가 달라지는 문제를 일으킵니다. 이 논문은 이를 공식화하고 간단한 사후 주변화로 해결합니다.

핵심 결론

  • 태스크Cityscapes 세그멘테이션에서 K=4 균일 위상 주변화가 4회 TTA 대비 mIoU 0.31 향상.
  • 범위세그멘테이션, 깊이 추정, 로컬 매칭 등 밀집 예측 전반에서 일관된 개선 확인.

방법

  • 아이디어패치 그리드 위상을 nuisance 변수로 간주하고, 여러 위상에서 출력을 계산한 뒤 원본 좌표계로 역정렬·통합.
  • 특징훈련 불필요, 기존 ViT에 그대로 적용 가능, K=4가 실용적 trade-off.

한계·조건

  • 비용K=4는 추론 시간 4배 증가, K=16은 정확도 이득 대비 지연 시간 증가 폭이 큼.
  • 일반화Cityscapes 외 다른 데이터셋에서의 검증은 추가 필요.
  • 코드공개 여부 불명 — abstract와 figure만 공개.

편집자 한 줄

TTA와 유사하지만 위상 정렬을 명시적으로 다룬 점이 깔끔합니다. 실제 응용에서는 K=4 정도면 충분해 보이네요.

  • #vision-transformer
  • #dense-prediction
  • #phase-marginalization
  • #cityscapes
  • #bilgem-ai
BILGEM AI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —