← Back to feed
Papers·2주 전

NUS, LRM의 추론 평가 능력 한계 발견 — 답 확인 편향이 원인

NUS, LRM의 추론 평가 능력 한계 발견 — 답 확인 편향이 원인

NUS 연구진이 수학 문제의 추론 과정에 사소한 오류가 있지만 답은 올바른 VAIR 데이터셋을 통해, 대규모 추론 모델(LRM)이 추론 평가에서 인간보다 크게 뒤처짐을 밝혔습니다. 최첨단 모델은 문제 풀이에서 거의 완벽한 성능을 보이지만, VAIR 평가에서는 48%에 그쳤습니다. 원인은 답 확인 편향으로, 모델이 각 단계를 검증하기보다 정답을 확인하고 합리화를 생성하기 때문입니다.

NUS 연구진이 대규모 추론 모델(LRM)이 추론 평가에서 인간보다 크게 뒤처지는 현상을 발견했습니다.

핵심 결론

  • 태스크수학 문제의 추론 과정 평가 — VAIR 데이터셋 사용.
  • 수치인간은 평가가 풀이보다 6% 낮은 반면, LRM은 평가에서 48%까지 하락.
  • 원인답 확인 편향: 모델이 정답에 맞춰 추론을 합리화.

방법

  • 데이터셋VAIR: 답은 맞지만 추론에 사소한 오류가 있는 문제.
  • 분석CoT 분석, 선형 프로브, 인과 패칭을 통해 편향 메커니즘 확인.
  • 증거프로브는 모델이 유효 추론과 무효 추론을 구분하지 못함을 보여줌.

한계·조건

  • 범위수학 문제에 한정, 다른 도메인 일반화는 미확인.
  • 모델주로 frontier 모델(예: GPT-4, Claude) 대상, 작은 모델은 추세 다를 수 있음.
  • 코드VAIR 데이터셋과 분석 코드는 공개 예정.

편집자 한 줄

추론 평가 능력의 결핍은 현재 RL 기반 추론 훈련 방식의 근본적 한계를 시사합니다.

  • #reasoning
  • #evaluation
  • #confirmation-bias
  • #nus
National University of Singapore
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —