← Back to feed
Papers·3일 전

LLMEval-Logic: 중국어 논리 추론 벤치마크 — 최고 모델도 Hard 정확도 37.5%

LLMEval-Logic: 중국어 논리 추론 벤치마크 — 최고 모델도 Hard 정확도 37.5%

LLMEval 팀이 현실 시나리오 기반 중국어 논리 추론 벤치마크 LLMEval-Logic을 공개했습니다. Base(246문항)와 Hard(190문항) 두 서브셋으로 구성되며, Z3 검증과 전문가 루브릭을 통해 정답과 형식화 점수를 동시에 평가합니다. 14개 최신 LLM 평가 결과, Hard 항목 정확도는 37.5%에 그쳤고, 참조 기호를 제공해도 형식화 점수는 60.16%를 넘지 못했습니다.

  • #logical-reasoning
  • #benchmark
  • #chinese
  • #llm-evaluation
LLMEval Official Team

Comments

— 첫 댓글을 남겨보세요 —