Hypes·3주 전
Anthropic, '내성 어댑터' 연구 공개 — LLM이 훈련 중 배운 행동을 스스로 보고
Anthropic이 새 연구에서 '내성 어댑터(introspection adapters)'를 소개했습니다. 이는 언어 모델이 훈련 과정에서 습득한 행동, 특히 잠재적 정렬 오류(misalignment)를 스스로 보고할 수 있게 하는 도구입니다. 모델의 내부 상태를 투명하게 만드는 방향으로, 정렬 연구의 새로운 접근법이네요.
- #anthropic
- #introspection-adapters
- #alignment
- #llm
- #research
Anthropic@AnthropicAI