Hypes·2주 전
OpenAI "Chain of thought monitors" — 정렬 모니터링의 핵심 층 공개
OpenAI가 CoT 모니터가 AI 에이전트 정렬 실패 방어의 핵심 층이라며, RL 과정에서 잘못된 추론을 처벌하지 않음으로써 모니터링 가능성을 유지한다고 밝혔네요. 실수로 CoT 평가가 일부 출시 모델에 영향을 준 사례도 분석과 함께 공유했습니다. 정렬 연구의 실용적 접근을 엿볼 수 있는 포스트.
- #openai
- #chain-of-thought
- #alignment
- #ai-safety
OpenAI@OpenAI