News·2시간 전
GSM-Symbolic 재현 실험 — 2026년 모델에서는 '패턴 매칭' 효과 크게 줄어

2024년 Apple의 GSM-Symbolic 논문이 주장한 'LLM이 패턴 매칭만 한다'는 결론을 2026년 3월 GPT-4o, Claude Opus 4.6, Claude Haiku 4.5로 재현한 결과, 모호한 샘플을 제거하면 성능 저하가 크게 줄어드는 것으로 나타났습니다. 원래 논문은 무관한 정보 추가 시 최대 65% 성능 하락을 보고했으나, 이는 모델이 합리적으로 판단한 결과일 가능성이 높아졌습니다.
2024년 Apple의 GSM-Symbolic 논문이 주장한 'LLM은 패턴 매칭만 한다'는 결론을 2026년 최신 모델로 재현한 결과, 효과가 크게 줄었습니다.
골자
- 재현 대상 — GSM-Symbolic (ICLR 2025) — 질문 변형 시 LLM 성능이 급락한다는 주장.
- 사용 모델 — GPT-4o, Claude Opus 4.6, Claude Haiku 4.5 (2026년 3월 기준).
- 핵심 발견 — 모호한 샘플을 감사(audit)하지 않으면 원 논문 결과가 재현되지만, 이를 제거하면 성능 저하가 크게 줄어듦.
배경·맥락
- 원 논문은 2024년 10월 Apple이 발표, GPT-4o·Llama 3 8B 등 18개월 전 모델을 평가.
- 세 가지 주장 — 동일 질문에 이름/값 변경 시 분산 증가, 수치 변경 시 성능 하락, 무관 정보 추가 시 최대 65% 성능 하락.
- 해당 논문은 여전히 자주 인용되며 'LLM은 패턴 매칭만 한다'는 증거로 사용됨.
자금 용처·향후
- 저자는 이 결과가 현재 모델에도 적용된다는 주장에 대응하기 위해 재현 실험을 진행.
- 시사점 — 모델이 무관해 보이는 정보를 '중요할 수 있다'고 합리적으로 판단한 결과일 가능성이 높음.
- 추가 후속 연구가 필요하지만, 최소한 2024년 결론이 2026년 모델에는 그대로 적용되지 않음을 보여줌.
편집자 한 줄
원 논문의 결론이 1년 반 만에 유효하지 않게 된 사례. 다만 재현 실험의 샘플 감사 기준이 논쟁의 여지가 있으므로, 완전히 반증된 것은 아닙니다.
- #gsm-symbolic
- #llm-reasoning
- #replication
- #apple
- #lesswrong
LessWrong