Papers·2일 전
ComBench: 올림피아드 조합론 벤치마크 — GPT-5.5도 65.4%, 증명과 구성은 별개 능력

Kimi-K2.6과 GPT-5.5 등 최신 모델을 평가한 결과, 전체 평균 65.4%로 아직 포화되지 않았으며, 엄밀한 증명 추론과 구성적 실현 능력이 서로 다른 차원임을 확인했습니다. 분석 중심 문제에서는 GPT-5.5가, 구성 중심 문제에서는 Kimi-K2.6이 더 높은 점수를 기록했습니다.
올림피아드 수준의 조합론 문제를 통해 LLM의 창의적 수학 추론 능력을 진단하는 벤치마크 ComBench가 공개되었습니다.
핵심 결론
- 벤치마크 — 100개의 인간 주석 문제로 구성, 분석 중심(증명 요구)과 구성 중심(명시적 구성 + 정당성) 두 가지 세팅.
- 최고 성적 — GPT-5.5가 전체 평균 65.4%, Best@4 75.3%로 가장 높았으나 여전히 여유 있음.
- 능력 분화 — Kimi-K2.6은 분석 문제에서 GPT-5.5에 밀리지만 구성 문제 Best@4에서는 앞서는 등 두 능력이 독립적.
방법
- 평가 방식 — 루브릭 기반 증명 채점 + 결정론적 구성 검증을 결합해 증명 품질과 구성 타당성을 분리 평가.
- 문제 구성 — 분석 중심 문제는 엄밀한 수학적 논증을, 구성 중심 문제는 명시적 구성과 정당성 설명을 요구.
한계·조건
- 범위 — 올림피아드 조합론에 특화되어 일반 수학 추론 능력을 대표하진 않음.
- 재현성 — 데이터와 평가 코드는 공개 예정이나 현재는 논문과 abstract만 열람 가능.
편집자 한 줄
존재성과 구성 문제가 모든 모델에서 일관되게 어려웠다는 점은, LLM의 '존재 증명' 능력이 아직 취약함을 시사합니다.
- #combinatorics
- #benchmark
- #olympiad
- #reasoning
- #llm
Simplified Reasoning