Papers·어제
SpatialBench: 공간 기초 모델의 진정한 일반화 능력을 평가하는 대규모 벤치마크

SpatialBench는 19개 데이터셋, 546개 장면, 5개 도메인을 아우르는 대규모 벤치마크로, 41개 모델을 6개 패러다임·5개 태스크·4개 입력 밀도에서 평가한 결과, 현재 모델이 '만능'이 아님을 밝혔습니다. 핵심 발견은 full-context attention이 정확도를 극대화하고, 도메인 정렬과 데이터 품질이 단순 데이터 스케일링보다 성능에 더 중요하다는 점입니다. 또한 가장 큰 데이터 격차를 해소하기 위해 DA-Next-5M 데이터셋과 DA-Next 베이스라인을 공개했습니다.
공간 기초 모델이 정말 다양한 태스크와 도메인에서 일반화할 수 있는지 평가하기 위해, 기존의 편향된 평가를 넘어서는 대규모 벤치마크 SpatialBench가 제안되었습니다.
핵심 결론
- 평가 규모 — 19개 데이터셋, 546개 장면, 5개 공간 도메인(실내·실외·도시·자연·합성)을 포함하며, 41개 모델을 6개 패러다임(NeRF, 3DGS, MVS, depth estimation, point cloud, radiance field)에서 평가합니다.
- 주요 발견 — 현재 모델은 '만능'이 아니며, full-context attention이 가장 높은 정확도를 보이고, bounded-memory 전략은 긴 시퀀스에서 확장성을 제공합니다.
- 데이터 품질 우선 — 엄격한 도메인 정렬과 높은 데이터 품질이 단순 데이터셋 규모 확장보다 성능에 훨씬 중요함을 실험적으로 입증했습니다.
방법
- 결정적 샘플링 — 기존 벤치마크의 임의 프레임 샘플링 문제를 해결하기 위해, 모든 평가에 대해 결정적(deterministic) 샘플링 프로토콜을 도입했습니다.
- 다양한 입력 밀도 — 4가지 입력 밀도 설정(희소·중간·조밀·초조밀)에서 모델을 평가하여 밀도 변화에 대한 강건성을 측정합니다.
- 데이터 격차 해소 — 분석 결과 가장 큰 데이터 격차가 발견된 영역을 위해 DA-Next-5M(500만 장면) 데이터셋과 DA-Next 베이스라인 모델을 새로 구축했습니다.
한계·조건
- 평가 범위 — 벤치마크는 5개 도메인에 국한되며, 동적 장면이나 시간적 변화가 있는 태스크는 포함하지 않습니다.
- 모델 선정 — 41개 모델은 6개 패러다임에서 선별되었으나, 모든 최신 모델을 망라하지는 않습니다.
- 코드·데이터 — SpatialBench와 DA-Next-5M은 Hugging Face에 공개될 예정이며, 현재는 논문과 함께 일부만 제공됩니다.
편집자 한 줄
공간 기초 모델의 일반화를 체계적으로 평가하려는 시도는 반갑습니다. 특히 '데이터 품질이 스케일보다 중요하다'는 실험 결과는 실제 응용에서도 시사하는 바가 크네요.
- #spatial-foundation-models
- #benchmark
- #generalization
- #domain-alignment
Ropedia