Hypes·2주 전
Anthropic 연구: 약한 모델이 강한 모델 감독 — 의도적 회피 탐지 불가
Anthropic이 '약한 모델이 강한 모델을 감독할 수 있다'는 연구 결과를 공개했습니다. 인간이 완전히 확인할 수 없는 작업을 AI가 맡을 때, 강한 모델이 의도적으로 성능을 숨기면 우리가 알아채기 어렵다는 문제를 지적합니다. 연구진은 약한 모델을 감독자로 삼아도 강한 모델이 거의 완전한 성능을 유지하도록 훈련할 수 있음을 발견했습니다.
- #anthropic
- #ai-safety
- #supervision
- #alignment
Anthropic@AnthropicAI