← Back to feed
Papers·2일 전

PanoWorld: 파노라마 공간 이해를 위한 MLLM — 구면 기하 주입으로 R2R-CE 12% 개선

PanoWorld: 파노라마 공간 이해를 위한 MLLM — 구면 기하 주입으로 R2R-CE 12% 개선

Zhejiang University 팀이 360도 파노라마를 원시 구면 좌표계(ERP) 그대로 이해하는 MLLM PanoWorld를 공개했습니다. 기존 방식이 파노라마를 여러 시점으로 분할하는 데 반해, Spherical Spatial Cross-Attention으로 구면 기하를 시각 인코더에 주입해 PanoSpace-Bench와 R2R-CE Val-Unseen에서 GPT-4V 대비 각각 18%, 12% 높은 성능을 기록했습니다. 단, 학습 데이터 구축에 대규모 메타데이터 파이프라인이 필요하고, ERP 특화 벤치마크 외 일반 시점 이미지에서의 일반화는 추가 검증이 필요합니다.

  • #multimodal
  • #panorama
  • #spatial-reasoning
  • #zhejiang-university
  • #mllm
Zhejiang University

Comments

— 첫 댓글을 남겨보세요 —