Papers·4일 전

Nemotron 30B, chain-of-thought 증류 실패 — backtracking search 는 모방 불가능

Harsh Patel 이 9가지 결정론적 추론 태스크에서 forward-computable 작업(검색·산술)은 LoRA 증류로 0.99 이상 전이되지만, cryptarithm 의 backtracking search 는 11가지 CoT 설계·RL·self-training 에서도 0.01~0.07 에 머문다는 것을 보였습니다. 모델은 각 줄의 산술은 97~100% 수행하고 올바른 cipher 를 상위 8위 안에 71% 넣지만, search 를 left-to-right derivation 으로 전개하지 못합니다. cipher key 를 미리 알려주면 동일 인스턴스가 0.03→0.57 로 오르며, search 의 combinatorial core 를 catalog 화해 recall+verification 으로 대체하면 Private LB 0.92 에 도달합니다. 증류되는 것은 memorization 과 verification 이지 search 자체가 아니라는 결론입니다.

짧은 프로그램으로 풀 수 있는 태스크라면 CoT 로 증류할 수 있을 거라는 가정이, identifiable class of procedures 에서는 성립하지 않음을 보인 논문입니다.

핵심 결론

태스크 — 9가지 결정론적 생성기 기반 추론 태스크, public/hidden split 공유.
결과 — forward-computable 작업(검색·산술·8-bit boolean)은 LoRA 증류로 0.99 이상 전이.
실패 — Cryptarithm backtracking search 는 11가지 CoT 설계·RL·self-training 에서 0.01~0.07, search solver 는 71% 정답.

방법

모델 — Nemotron 30B (3.5B active) 에 rank ≤ 32 LoRA, backbone 3B~671B 도 동일 추세.
분석 — 모델은 각 줄 산술 97~100% 수행, 올바른 cipher 상위 8위 71% — search 전개 실패.
원인 — cipher key 제공 시 0.03→0.57; search 의 combinatorial core 를 catalog 화해 recall+verification 으로 대체 시 Private LB 0.92.

한계·조건

범위 — 결정론적 생성기 태스크에 한정, 자연어 추론 일반화 여부는 미확인.
재현성 — 코드·데이터셋 공개 여부 명시되지 않음.

편집자 한 줄

search 자체가 아니라 search 의 결과 패턴을 암기·검증하는 쪽으로 증류된다는 점은, CoT 의 본질적 한계를 잘 짚은 실험입니다.

#chain-of-thought
#distillation
#reasoning
#nemotron
#search

Harsh Patel

원문 보기 →

Nemotron 30B, chain-of-thought 증류 실패 — backtracking search 는 모방 불가능

핵심 결론

방법

한계·조건

Comments