Papers·3일 전
LLMEval-Logic: 중국어 논리 추론 벤치마크 — 최고 모델도 Hard 정확도 37.5%

LLMEval 팀이 현실 시나리오 기반 중국어 논리 추론 벤치마크 LLMEval-Logic을 공개했습니다. Base(246문항)와 Hard(190문항) 두 서브셋으로 구성되며, Z3 검증과 전문가 루브릭을 통해 정답과 형식화 점수를 동시에 평가합니다. 14개 최신 LLM 평가 결과, Hard 항목 정확도는 37.5%에 그쳤고, 참조 기호를 제공해도 형식화 점수는 60.16%를 넘지 못했습니다.
- #logical-reasoning
- #benchmark
- #chinese
- #llm-evaluation
LLMEval Official Team