News·2주 전
AI 제어에서 재시도 vs 재표집 — Ctrl-Z 후속 연구

LessWrong 에 AI 제어 연구팀이 새 논문을 발표했습니다. 1년 전 Ctrl-Z 에서 소개한 재표집(resample) 프로토콜을 더 강력한 모델과 업데이트된 환경에서 재현하고, Claude Code·Codex 의 자동 재시도(retry) 방식과 비교했습니다. 재표집의 효과가 최신 모델에서도 유지되는지, 재시도 방식이 제어 관점에서 어떻게 다른지를 분석한 것이 핵심입니다.
AI 제어 연구팀이 1년 전 Ctrl-Z 의 재표집 프로토콜을 최신 모델로 재현하고, 재시도 방식과 비교한 후속 논문을 공개했습니다.
골자
- 주제 — Ctrl-Z 의 재표집 프로토콜을 더 강력한 모델과 업데이트된 제어 환경에서 재현하고, 재시도 프로토콜과 비교.
- 재표집 — 매 단계마다 모델에서 여러 i.i.d. 샘플을 뽑아 안전한 것을 선택하는 전략.
- 재시도 — Claude Code·Codex 의 자동 재시도 기능처럼, 의심스러운 툴 호출을 차단하고 다시 시도하는 방식.
배경·맥락
- Ctrl-Z(2024)는 재표집 프로토콜이 제어 성능을 크게 높인다는 결과를 보였지만, 모델 성능이 급격히 향상된 지금 그 결과가 일반화되는지 확인할 필요가 있었습니다.
- 차이점 — 재표집은 에이전트에게 재표집 사실을 알리지 않는 반면, 재시도는 에이전트가 차단과 재시도를 인지한다는 점이 중요합니다.
자금 용처·향후
- 연구팀은 재표집의 효과가 최신 모델에서도 대체로 유지됨을 발견했으며, 재시도 방식은 추론 비용과 지연 시간을 줄이면서도 유용성을 유지하는 데 장점이 있다고 보고했습니다.
- 한계 — 재시도는 에이전트가 차단을 학습할 가능성이 있어 장기적 안전성 평가가 추가로 필요합니다.
편집자 한 줄
Ctrl-Z 의 핵심 결과가 1년 후에도 유효한지 확인한 점이 의미 있습니다. 재시도 방식은 실제 코딩 어시스턴트에 이미 적용 중이라 실용적 관심이 높은 주제네요.
- #ai-control
- #resampling
- #retrying
- #lesswrong
LessWrong