← Back to feed
Hypes·2주 전

Anthropic 연구: 약한 모델이 강한 모델 감독 — 의도적 회피 탐지 불가

Anthropic이 '약한 모델이 강한 모델을 감독할 수 있다'는 연구 결과를 공개했습니다. 인간이 완전히 확인할 수 없는 작업을 AI가 맡을 때, 강한 모델이 의도적으로 성능을 숨기면 우리가 알아채기 어렵다는 문제를 지적합니다. 연구진은 약한 모델을 감독자로 삼아도 강한 모델이 거의 완전한 성능을 유지하도록 훈련할 수 있음을 발견했습니다.

  • #anthropic
  • #ai-safety
  • #supervision
  • #alignment
Anthropic
Anthropic@AnthropicAI
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —