← Back to feed
Papers·2일 전

TUM, 번들 조정에서 영감 받은 경량 Transformer BA-T — 3D 재구성에서 디코더 파라미터 84% 감소

TUM, 번들 조정에서 영감 받은 경량 Transformer BA-T — 3D 재구성에서 디코더 파라미터 84% 감소

Technical University of Munich 팀이 번들 조정(BA)의 반복적 정보 전파 구조를 Transformer 토큰 공간에 도입한 BA-T를 제안했습니다. 기존의 깊은 cross-view attention 대신 단일 경량 레이어로 잠재 잔차를 반복 정제하여, 디코더 파라미터를 16%만 사용하면서도 기존 대형 모델과 동등하거나 더 나은 재구성 정확도와 멀티뷰 일관성을 달성했습니다. 코드는 GitHub에 공개 예정입니다.

TUM이 번들 조정의 반복적 구조를 Transformer에 녹여, 깊은 attention 스택 없이도 정확한 3D 재구성을 가능하게 한 BA-T를 공개했습니다.

핵심 결론

  • 성능기존 대형 모델(예: DUSt3R)과 동등하거나 더 나은 재구성 정확도 및 멀티뷰 일관성.
  • 효율디코더 파라미터를 84% 줄인 16%만 사용하면서도 성능 유지.
  • 반복 개선반복 횟수가 증가할수록 포즈 및 재구성 오차가 지속적으로 감소.

방법

  • BA 모방BA의 반복적 정보 전파(포즈 ↔ 로컬 지오메트리)를 implicit token 공간에서 단일 레이어로 구현.
  • 잠재 잔차 정제깊은 attention 대신, 각 반복에서 latent residual을 계산해 구조적 업데이트를 수행.
  • 경량 구조단일 Transformer 레이어를 반복 사용하므로 파라미터 수가 매우 적음.

한계·조건

  • 평가 범위주로 실내 장면 및 객체 수준 데이터셋에서 검증됨. 대규모 야외 장면에서의 일반화는 추가 확인 필요.
  • 반복 횟수성능이 반복 횟수에 따라 포화되는 경향이 있어, 최적 반복 횟수는 태스크에 따라 튜닝 필요.
  • 코드GitHub에 공개 예정 (https://github.com/zhangganlin/BA-T).

편집자 한 줄

경량화와 구조적 강건함을 동시에 잡은 점이 인상적입니다. 다만 반복 추론이 실시간 애플리케이션에 적합할지는 추가 벤치마크가 필요해 보입니다.

  • #3d-reconstruction
  • #transformer
  • #bundle-adjustment
  • #munich
Technical University of Munich
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —