Papers·어제
ChLogic 벤치마크 — LLM 논리 추론, 영어-중국어 간 성능 격차 지속

영어-중국어 정렬 논리 추론 벤치마크 ChLogic을 공개했습니다. Qwen3, Ministral, GLM 모델에서 영어 대비 중국어 성능이 일관되게 낮았고, 중국어를 영어로 역번역하면 일반 문제에서는 개선되지만 어려운 문제에서는 오히려 성능이 떨어지는 경우도 있었습니다. 중국어 표면 실현과 번역 아티팩트가 다국어 추론에 복합적으로 영향을 준다는 점을 보여주네요.
영어-중국어 정렬 논리 추론 벤치마크 ChLogic을 통해 LLM의 다국어 추론 견고성을 테스트했습니다.
핵심 결론
- 태스크 — 동일한 논리 구조가 영어와 다양한 중국어 표현으로 주어졌을 때 모델의 추론 성능 차이를 측정.
- 결과 — Qwen3, Ministral, GLM 모두 영어 대비 중국어에서 성능이 낮았으며, 역번역 효과는 문제 난이도에 따라 달랐습니다.
방법
- 데이터 구성 — 60개 일반 명제(9개 템플릿), 40개 어려운 문제, 15개 중국어 특수 현상으로 구성. 각 항목은 영어 1개 + 중국어 5개 실현.
- 실험 — Qwen3-32B, Ministral-8B, GLM-5.1 등 최신 모델로 평가. 역번역 실험에서는 중국어를 영어로 번역한 후 추론.
한계·조건
- 범위 — 영어-중국어 쌍에 한정되며, 다른 언어로의 일반화는 추가 검증 필요.
- 데이터 — 합성 템플릿 기반으로 제작되어 실제 자연어 논증과 차이가 있을 수 있습니다.
- 코드 — 벤치마크와 데이터는 Hugging Face에 공개 예정입니다.
편집자 한 줄
역번역이 오히려 성능을 떨어뜨리는 구간이 있다는 점이 흥미롭습니다. 다국어 추론의 비대칭성을 보여주는 좋은 스트레스 테스트네요.
- #logical-reasoning
- #multilingual
- #benchmark
- #chinese
- #llm
Peixian Zhou