Papers·어제
SWITCH: 경계 토큰으로 잠재 추론의 RL 학습과 해석을 동시에 해결

SWITCH는 잠재 추론(latent reasoning)에서 가시적 추론 토큰을 숨겨진 상태 순환(hidden-state recurrence)으로 대체하는 접근법의 두 가지 문제—표준 on-policy RL 최적화의 어려움과 인과적 해석의 난해함—을 한 쌍의 명시적 경계 토큰(<swi>, </swi>)으로 동시에 해결합니다. 이 경계 토큰 덕분에 GRPO 정책 비율이 모든 결정 지점에서 정의 가능해져 on-policy RL이 가능해지고, 동시에 잠재 단계를 직접 프로빙하고 인과적 개입할 수 있는 발판을 제공합니다. SWITCH는 유사한 규모의 기존 잠재 추론 방식보다 일관되게 높은 성능을 보였으며, 경계 토큰을 통한 기계론적 분석에서 <swi>가 학습된 스위칭 정책이며 잠재 단계가 문제 특화적이고 인과적으로 중요한 계산을 수행함을 밝혔습니다.
잠재 추론의 최적화와 해석을 동시에 해결하는 SWITCH 프레임워크가 공개되었습니다.
핵심 결론
- 성능 — SWITCH는 유사 규모의 기존 잠재 추론 방식(예: CoT, latent CoT)보다 일관되게 높은 성능을 기록했습니다.
- RL 호환 — 경계 토큰 덕분에 GRPO 등 표준 on-policy RL로 학습 가능해졌습니다.
- 해석 가능 — 경계 토큰을 통해 잠재 단계의 내부 계산을 직접 프로빙하고 인과적 개입할 수 있습니다.
방법
- 경계 토큰 — 모델이 <swi>를 출력하면 잠재 모드로 진입하고 </swi>를 출력하면 종료합니다. 이 토큰들은 일반적인 이산 토큰이므로 GRPO 정책 비율이 모든 결정 지점에서 정의됩니다.
- 학습 — 가시적 추론에서 잠재 추론으로 점진적으로 전환하는 커리큘럼(visible-to-latent curriculum)과 Switch-GRPO 목적 함수를 사용합니다.
- 기계론적 분석 — 경계 토큰을 통해 세 가지 발견: (i) <swi>는 날카롭게 국소화된 학습된 스위칭 정책, (ii) 잠재 단계는 문제 특화적이고 인과적으로 중요한 계산 수행, (iii) 계산은 진입 시 단일 은닉 상태 전이에 집중.
한계·조건
- 스케일 — 실험은 특정 규모(논문 내 명시)에서 수행되었으며, 더 큰 모델에서의 일반화는 추가 검증이 필요합니다.
- 코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.
편집자 한 줄
잠재 추론을 RL 친화적으로 만들면서도 해석 가능성을 확보한 점이 인상적입니다. 특히 경계 토큰이라는 단순한 아이디어로 두 문제를 동시에 해결한 점이 흥미롭네요.
- #latent-reasoning
- #chain-of-thought
- #reinforcement-learning
- #mechanistic-interpretability
Jiayu Yang