News·1개월 전

AI 제어에서 재시도 vs 재표집 — Ctrl-Z 후속 연구

LessWrong 에 AI 제어 연구팀이 새 논문을 발표했습니다. 1년 전 Ctrl-Z 에서 소개한 재표집(resample) 프로토콜을 더 강력한 모델과 업데이트된 환경에서 재현하고, Claude Code·Codex 의 자동 재시도(retry) 방식과 비교했습니다. 재표집의 효과가 최신 모델에서도 유지되는지, 재시도 방식이 제어 관점에서 어떻게 다른지를 분석한 것이 핵심입니다.

AI 제어 연구팀이 1년 전 Ctrl-Z 의 재표집 프로토콜을 최신 모델로 재현하고, 재시도 방식과 비교한 후속 논문을 공개했습니다.

골자

주제 — Ctrl-Z 의 재표집 프로토콜을 더 강력한 모델과 업데이트된 제어 환경에서 재현하고, 재시도 프로토콜과 비교.
재표집 — 매 단계마다 모델에서 여러 i.i.d. 샘플을 뽑아 안전한 것을 선택하는 전략.
재시도 — Claude Code·Codex 의 자동 재시도 기능처럼, 의심스러운 툴 호출을 차단하고 다시 시도하는 방식.

배경·맥락

Ctrl-Z(2024)는 재표집 프로토콜이 제어 성능을 크게 높인다는 결과를 보였지만, 모델 성능이 급격히 향상된 지금 그 결과가 일반화되는지 확인할 필요가 있었습니다.
차이점 — 재표집은 에이전트에게 재표집 사실을 알리지 않는 반면, 재시도는 에이전트가 차단과 재시도를 인지한다는 점이 중요합니다.

자금 용처·향후

연구팀은 재표집의 효과가 최신 모델에서도 대체로 유지됨을 발견했으며, 재시도 방식은 추론 비용과 지연 시간을 줄이면서도 유용성을 유지하는 데 장점이 있다고 보고했습니다.
한계 — 재시도는 에이전트가 차단을 학습할 가능성이 있어 장기적 안전성 평가가 추가로 필요합니다.

편집자 한 줄

Ctrl-Z 의 핵심 결과가 1년 후에도 유효한지 확인한 점이 의미 있습니다. 재시도 방식은 실제 코딩 어시스턴트에 이미 적용 중이라 실용적 관심이 높은 주제네요.

#ai-control
#resampling
#retrying
#lesswrong

LessWrong

원문 보기 →

AI 제어에서 재시도 vs 재표집 — Ctrl-Z 후속 연구

골자

배경·맥락

자금 용처·향후

Comments