Papers·4일 전
A2RBench: LLM 추상 추론 능력 자동 평가 파이프라인 — 인간 68.5% vs. 최고 모델 39.8%

MAC-AutoML 팀이 LLM의 추상 추론 능력을 자동으로 측정하는 A2RBench 파이프라인을 제안했습니다. LLM이 규칙을 생성하고, cycle consistency 검증으로 환각을 제거한 후 다양한 태스크 변형을 확장합니다. 실험 결과, 최고 LLM도 인간(68.5%)에 비해 크게 낮은 39.8% 정확도를 보였고, 3D 태스크에서 특히 취약했습니다. 흥미롭게도 정보 복잡도가 높은 입력이 오히려 추론을 단순화하는 역직관적 결과도 관찰되었습니다.
- #abstract-reasoning
- #llm-evaluation
- #automl
- #benchmark
MAC-AutoML