Papers·1개월 전

ComBench: 올림피아드 조합론 벤치마크 — GPT-5.5도 65.4%, 증명과 구성은 별개 능력

Kimi-K2.6과 GPT-5.5 등 최신 모델을 평가한 결과, 전체 평균 65.4%로 아직 포화되지 않았으며, 엄밀한 증명 추론과 구성적 실현 능력이 서로 다른 차원임을 확인했습니다. 분석 중심 문제에서는 GPT-5.5가, 구성 중심 문제에서는 Kimi-K2.6이 더 높은 점수를 기록했습니다.

올림피아드 수준의 조합론 문제를 통해 LLM의 창의적 수학 추론 능력을 진단하는 벤치마크 ComBench가 공개되었습니다.

핵심 결론

벤치마크 — 100개의 인간 주석 문제로 구성, 분석 중심(증명 요구)과 구성 중심(명시적 구성 + 정당성) 두 가지 세팅.
최고 성적 — GPT-5.5가 전체 평균 65.4%, Best@4 75.3%로 가장 높았으나 여전히 여유 있음.
능력 분화 — Kimi-K2.6은 분석 문제에서 GPT-5.5에 밀리지만 구성 문제 Best@4에서는 앞서는 등 두 능력이 독립적.

방법

평가 방식 — 루브릭 기반 증명 채점 + 결정론적 구성 검증을 결합해 증명 품질과 구성 타당성을 분리 평가.
문제 구성 — 분석 중심 문제는 엄밀한 수학적 논증을, 구성 중심 문제는 명시적 구성과 정당성 설명을 요구.

한계·조건

범위 — 올림피아드 조합론에 특화되어 일반 수학 추론 능력을 대표하진 않음.
재현성 — 데이터와 평가 코드는 공개 예정이나 현재는 논문과 abstract만 열람 가능.

편집자 한 줄

존재성과 구성 문제가 모든 모델에서 일관되게 어려웠다는 점은, LLM의 '존재 증명' 능력이 아직 취약함을 시사합니다.

#combinatorics
#benchmark
#olympiad
#reasoning
#llm

Simplified Reasoning

원문 보기 →

ComBench: 올림피아드 조합론 벤치마크 — GPT-5.5도 65.4%, 증명과 구성은 별개 능력

핵심 결론

방법

한계·조건

Comments