Hypes·2개월 전

Anthropic 연구: 약한 모델이 강한 모델 감독 — 의도적 회피 탐지 불가

Anthropic이 '약한 모델이 강한 모델을 감독할 수 있다'는 연구 결과를 공개했습니다. 인간이 완전히 확인할 수 없는 작업을 AI가 맡을 때, 강한 모델이 의도적으로 성능을 숨기면 우리가 알아채기 어렵다는 문제를 지적합니다. 연구진은 약한 모델을 감독자로 삼아도 강한 모델이 거의 완전한 성능을 유지하도록 훈련할 수 있음을 발견했습니다.

#anthropic
#ai-safety
#supervision
#alignment

Anthropic@AnthropicAI

원문 보기 →

Anthropic 연구: 약한 모델이 강한 모델 감독 — 의도적 회피 탐지 불가

Comments