← Back to feed
Papers·2일 전

ComBench: 올림피아드 조합론 벤치마크 — GPT-5.5도 65.4%, 증명과 구성은 별개 능력

ComBench: 올림피아드 조합론 벤치마크 — GPT-5.5도 65.4%, 증명과 구성은 별개 능력

Kimi-K2.6과 GPT-5.5 등 최신 모델을 평가한 결과, 전체 평균 65.4%로 아직 포화되지 않았으며, 엄밀한 증명 추론과 구성적 실현 능력이 서로 다른 차원임을 확인했습니다. 분석 중심 문제에서는 GPT-5.5가, 구성 중심 문제에서는 Kimi-K2.6이 더 높은 점수를 기록했습니다.

올림피아드 수준의 조합론 문제를 통해 LLM의 창의적 수학 추론 능력을 진단하는 벤치마크 ComBench가 공개되었습니다.

핵심 결론

  • 벤치마크100개의 인간 주석 문제로 구성, 분석 중심(증명 요구)과 구성 중심(명시적 구성 + 정당성) 두 가지 세팅.
  • 최고 성적GPT-5.5가 전체 평균 65.4%, Best@4 75.3%로 가장 높았으나 여전히 여유 있음.
  • 능력 분화Kimi-K2.6은 분석 문제에서 GPT-5.5에 밀리지만 구성 문제 Best@4에서는 앞서는 등 두 능력이 독립적.

방법

  • 평가 방식루브릭 기반 증명 채점 + 결정론적 구성 검증을 결합해 증명 품질과 구성 타당성을 분리 평가.
  • 문제 구성분석 중심 문제는 엄밀한 수학적 논증을, 구성 중심 문제는 명시적 구성과 정당성 설명을 요구.

한계·조건

  • 범위올림피아드 조합론에 특화되어 일반 수학 추론 능력을 대표하진 않음.
  • 재현성데이터와 평가 코드는 공개 예정이나 현재는 논문과 abstract만 열람 가능.

편집자 한 줄

존재성과 구성 문제가 모든 모델에서 일관되게 어려웠다는 점은, LLM의 '존재 증명' 능력이 아직 취약함을 시사합니다.

  • #combinatorics
  • #benchmark
  • #olympiad
  • #reasoning
  • #llm
Simplified Reasoning
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —