Papers·3일 전
Stanford, LLM의 규칙 추론 능력 한계 — 안정적 카운팅 용량이 컨텍스트 한계보다 훨씬 낮아

Stanford 연구진이 LLM의 규칙 추론 능력을 평가하기 위해 Stable Counting Capacity라는 실험을 설계했습니다. 100개 이상의 모델 변종을 테스트한 결과, 모델이 안정적으로 카운팅할 수 있는 용량은 광고된 컨텍스트 한계보다 훨씬 낮았습니다. 모델은 유한한 내부 상태(손가락 셈)에 의존하며, 그 한계를 넘으면 추론이 붕괴되어 추측으로 전환됩니다. 추가 테스트-타임 컴퓨팅도 이를 해결하지 못했습니다. 이는 현재 LLM의 유창한 성능이 일반적이고 신뢰할 수 있는 규칙 추론을 보장하지 않음을 시사합니다.
- #llm
- #reasoning
- #stanford
- #counting
- #evaluation
Stanford University