Papers·1주 전
산업 제품 이미지 이해 MLLM 벤치마크 — 속성 회수율 최고 49.9%

산업용 밸브·차단기 등 제품 명세가 여러 이미지(표, 명판, 도면)에 분산된 상황에서 MLLM의 속성 추출 성능을 평가한 IndustryBench-MIPU 벤치마크가 공개됐습니다. 4,559개 제품, 27,652장 이미지, 103,703개 주석으로 구성되며, 9개 MLLM 평가 결과 정밀도는 86–94%로 높지만 제품 수준 속성 회수율은 최고 49.9%에 그쳐 다중 이미지 완전성이 핵심 병목임을 밝혔습니다. 데이터와 코드는 공개됐습니다.
산업 제품 명세가 여러 이미지에 흩어져 있을 때 MLLM이 얼마나 잘 복원하는지 측정한 최초의 대규모 벤치마크입니다.
핵심 결론
- 정밀도 vs 회수율 — MLLM 정밀도는 86–94%로 높지만, 제품 수준 속성 회수율은 최고 49.9%에 불과합니다.
- 다중 이미지 격차 — 단일 이미지에서 다중 이미지로 전환 시 recall이 15–34%p 하락해, 다중 이미지 완전성이 핵심 병목입니다.
방법
- 태스크 — 명세표, 명판, 기술 도면 등 여러 이미지에서 속성-값 쌍을 추출하는 구조화된 속성 추출 과제입니다.
- 데이터 구축 — 18개 산업 카테고리, 4,559개 제품, 27,652장 이미지, 103,703개 주석 — 다중 모델 합의와 3단계 품질 보증으로 구축됐습니다.
- 평가 — 9개 MLLM을 단일 이미지 및 제품 수준 다중 이미지 설정에서 평가했습니다.
한계·조건
- 범위 — 벤치마크는 속성 추출에 집중되어 있으며, 실제 산업 현장의 다양한 변형(조명, 각도, 노이즈)은 포함되지 않았습니다.
- 공개 — 데이터셋과 코드는 공개되어 재현 가능합니다.
편집자 한 줄
다중 이미지 이해에서 recall 병목이 뚜렷한 점이 인상적입니다. 향후 MLLM의 문서 이해 능력 개선 방향에 힌트를 줄 만한 벤치마크네요.
- #multimodal
- #benchmark
- #industrial
- #mllm
1688 multimodal & industrial AI