Papers·어제

MLLM 공간 추론, 시각적 열화에 취약 — SpaceDG 데이터셋으로 25개 모델 평가

Multimodal Large Language Model(MLLM)의 공간 추론 능력이 실제 환경에서 흔히 발생하는 모션 블러, 저조도, 악천후, 렌즈 왜곡, 압축 아티팩트 등 시각적 열화에 얼마나 취약한지 평가한 연구가 나왔습니다. 연구팀은 3D Gaussian Splatting(3DGS) 렌더링에 물리 기반 열화 합성 엔진을 결합해 9가지 열화 유형을 현실적으로 시뮬레이션한 SpaceDG 데이터셋을 구축했고, 1,102개 질문으로 구성된 SpaceDG-Bench로 25개 오픈소스·클로즈드소스 MLLM을 평가한 결과 시각적 열화가 공간 추론 성능을 일관되게 크게 떨어뜨리는 것을 확인했습니다. 흥미로운 점은 SpaceDG로 파인튜닝하면 열화 조건에서 인간 성능을 넘을 수 있고, 깨끗한 이미지에서도 성능 저하가 없다는 점입니다. 다만 데이터셋이 약 1,000개 실내 장면에 국한되어 있어 일반화 범위는 추가 검증이 필요합니다.

#spatial-reasoning
#multimodal
#robustness
#3dgs
#mllm

Visionary-Laboratoary

원문 보기 →

MLLM 공간 추론, 시각적 열화에 취약 — SpaceDG 데이터셋으로 25개 모델 평가

Comments