Papers·2주 전
NUS, LRM의 추론 평가 능력 한계 발견 — 답 확인 편향이 원인

NUS 연구진이 수학 문제의 추론 과정에 사소한 오류가 있지만 답은 올바른 VAIR 데이터셋을 통해, 대규모 추론 모델(LRM)이 추론 평가에서 인간보다 크게 뒤처짐을 밝혔습니다. 최첨단 모델은 문제 풀이에서 거의 완벽한 성능을 보이지만, VAIR 평가에서는 48%에 그쳤습니다. 원인은 답 확인 편향으로, 모델이 각 단계를 검증하기보다 정답을 확인하고 합리화를 생성하기 때문입니다.
NUS 연구진이 대규모 추론 모델(LRM)이 추론 평가에서 인간보다 크게 뒤처지는 현상을 발견했습니다.
핵심 결론
- 태스크 — 수학 문제의 추론 과정 평가 — VAIR 데이터셋 사용.
- 수치 — 인간은 평가가 풀이보다 6% 낮은 반면, LRM은 평가에서 48%까지 하락.
- 원인 — 답 확인 편향: 모델이 정답에 맞춰 추론을 합리화.
방법
- 데이터셋 — VAIR: 답은 맞지만 추론에 사소한 오류가 있는 문제.
- 분석 — CoT 분석, 선형 프로브, 인과 패칭을 통해 편향 메커니즘 확인.
- 증거 — 프로브는 모델이 유효 추론과 무효 추론을 구분하지 못함을 보여줌.
한계·조건
- 범위 — 수학 문제에 한정, 다른 도메인 일반화는 미확인.
- 모델 — 주로 frontier 모델(예: GPT-4, Claude) 대상, 작은 모델은 추세 다를 수 있음.
- 코드 — VAIR 데이터셋과 분석 코드는 공개 예정.
편집자 한 줄
추론 평가 능력의 결핍은 현재 RL 기반 추론 훈련 방식의 근본적 한계를 시사합니다.
- #reasoning
- #evaluation
- #confirmation-bias
- #nus
National University of Singapore