Papers·1주 전
IBM, 산업 자산 유지보수 LLM 벤치마크 공개 — 6,690문항, 29개 모델 평가

IBM 연구진이 산업 자산의 규칙 기반 유지보수 작업을 LLM이 얼마나 잘 수행하는지 평가하는 벤치마크를 공개했습니다. 16개 자산 유형, 118개 규칙-행동 쌍에서 추출한 6,690개의 전문가 검증 다지선다형 문제로 구성되며, 29개 LLM과 4개 임베딩 베이스라인을 평가했습니다. 흥미로운 점은 최상위 3개 모델 간 성능 차이가 1% 이내로 좁혀졌지만, 구조적 변형(Pro, Aug)에서는 모든 모델이 13~60%의 정확도 하락을 보였다는 점입니다. 배포의 병목은 성능이 아닌 캘리브레이션에 있다는 지적이네요.
- #llm
- #benchmark
- #industrial-maintenance
- #ibm
IBM