← Back to feed
Papers·3일 전

산업 조달 QA 벤치마크 IndustryBench — LLM 안전성 평가에서 GPT-5.4 순위 상승, Kimi-k2.5 하락

산업 조달 QA 벤치마크 IndustryBench — LLM 안전성 평가에서 GPT-5.4 순위 상승, Kimi-k2.5 하락

중국 국가표준(GB/T) 기반 산업 조달 QA 벤치마크 IndustryBench(2,049문항)를 공개했습니다. 17개 모델 평가 결과, 최고 점수는 0-3점 척도에서 2.083에 그쳐 상당한 개선 여지가 남았습니다. 특히 추론 시간을 늘리면 13개 모델 중 12개에서 안전 조정 점수가 하락했는데, 이는 긴 답변에 안전에 중요한 허위 정보가 포함되기 때문입니다. GPT-5.4는 안전 위반(SV) 조정 후 6위에서 3위로 상승한 반면, Kimi-k2.5-1T-A32B는 7계단 하락했습니다. 산업용 LLM 평가는 단순 정확도가 아닌 출처 기반 안전 진단이 필요함을 시사합니다.

  • #llm
  • #benchmark
  • #industrial-procurement
  • #safety
  • #chinese
1688 multimodal & industrial AI

Comments

— 첫 댓글을 남겨보세요 —