Papers·5일 전
LRM의 숨은 비판 능력: 오류 전파에도 정답 복구 — critique vector 로 test-time scaling 향상

Large Reasoning Model(LRM)이 중간 추론 단계에 산술 오류를 심어도, 명시적 수정 없이 최종 정답에 도달하는 '숨은 비판 능력(hidden critique ability)'을 발견했습니다. feature space 분석을 통해 이 행동을 대표하는 critique vector 를 식별했고, 이 벡터로 latent representation 을 조정하면 오류 탐지 능력과 test-time scaling 성능이 향상됩니다. 추가 학습 없이도 여러 모델 계열에서 일관된 효과를 보였으나, 벤치마크가 산술 오류에 국한되어 있어 일반화 가능성은 더 검증이 필요합니다.
LRM이 오류를 명시적으로 수정하지 않고도 정답을 복구하는 내부 메커니즘을 발견하고, 이를 제어하는 critique vector 를 제시했습니다.
핵심 결론
- 현상 — 중간 추론 단계에 산술 오류를 주입해도, 오류가 CoT 전체에 전파된 후 최종 정답이 올바른 경우가 존재합니다.
- 메커니즘 — 이 복구는 명시적 수정 없이 내부 critique 능력에 의해 이루어지며, feature space 에서 interpretable 한 방향으로 나타납니다.
- 성능 — Critique vector 로 steering 하면 오류 탐지 정확도가 향상되고, test-time scaling (e.g., majority voting) 의 성능이 추가 학습 없이 개선됩니다.
방법
- 오류 주입 — CoT 의 특정 step 에서 숫자 값을 변경하는 식으로 산술 오류를 인위적으로 삽입했습니다.
- Critique vector — 오류가 있는 상태와 없는 상태의 hidden state 차이를 PCA 로 분석해 critique 방향을 추출했습니다.
- Steering — Inference 시 이 방향으로 latent 를 조정하면 모델의 자체 오류 탐지 능력이 강화됩니다.
한계·조건
- 오류 유형 — 실험은 산술 오류에만 국한되어 있어, 논리 오류나 사실 오류에 대한 일반화는 확인되지 않았습니다.
- 모델 규모 — 여러 모델 계열에서 검증되었지만, 7B~70B 규모에 한정됩니다.
- 코드 — GitHub 에 코드가 공개되어 있어 재현이 가능합니다.
편집자 한 줄
오류가 전파되는데도 정답을 맞추는 현상은 직관에 반하지만, 내부 critique 가 암묵적으로 작동한다는 해석은 설득력 있습니다. 다만 steering 의 실용적 이득이 벤치마크 밖에서도 유지될지는 더 봐야 합니다.
- #large-reasoning-models
- #critique-vector
- #self-verification
- #test-time-scaling
- #error-recovery
Hoang Phan