Papers·4일 전
Nemotron 30B, chain-of-thought 증류 실패 — backtracking search 는 모방 불가능

Harsh Patel 이 9가지 결정론적 추론 태스크에서 forward-computable 작업(검색·산술)은 LoRA 증류로 0.99 이상 전이되지만, cryptarithm 의 backtracking search 는 11가지 CoT 설계·RL·self-training 에서도 0.01~0.07 에 머문다는 것을 보였습니다. 모델은 각 줄의 산술은 97~100% 수행하고 올바른 cipher 를 상위 8위 안에 71% 넣지만, search 를 left-to-right derivation 으로 전개하지 못합니다. cipher key 를 미리 알려주면 동일 인스턴스가 0.03→0.57 로 오르며, search 의 combinatorial core 를 catalog 화해 recall+verification 으로 대체하면 Private LB 0.92 에 도달합니다. 증류되는 것은 memorization 과 verification 이지 search 자체가 아니라는 결론입니다.
짧은 프로그램으로 풀 수 있는 태스크라면 CoT 로 증류할 수 있을 거라는 가정이, identifiable class of procedures 에서는 성립하지 않음을 보인 논문입니다.
핵심 결론
- 태스크 — 9가지 결정론적 생성기 기반 추론 태스크, public/hidden split 공유.
- 결과 — forward-computable 작업(검색·산술·8-bit boolean)은 LoRA 증류로 0.99 이상 전이.
- 실패 — Cryptarithm backtracking search 는 11가지 CoT 설계·RL·self-training 에서 0.01~0.07, search solver 는 71% 정답.
방법
- 모델 — Nemotron 30B (3.5B active) 에 rank ≤ 32 LoRA, backbone 3B~671B 도 동일 추세.
- 분석 — 모델은 각 줄 산술 97~100% 수행, 올바른 cipher 상위 8위 71% — search 전개 실패.
- 원인 — cipher key 제공 시 0.03→0.57; search 의 combinatorial core 를 catalog 화해 recall+verification 으로 대체 시 Private LB 0.92.
한계·조건
- 범위 — 결정론적 생성기 태스크에 한정, 자연어 추론 일반화 여부는 미확인.
- 재현성 — 코드·데이터셋 공개 여부 명시되지 않음.
편집자 한 줄
search 자체가 아니라 search 의 결과 패턴을 암기·검증하는 쪽으로 증류된다는 점은, CoT 의 본질적 한계를 잘 짚은 실험입니다.
- #chain-of-thought
- #distillation
- #reasoning
- #nemotron
- #search
Harsh Patel