News·5시간 전
Anthropic Mythos 5, 해석 불가 추론 사례 공개 — "단어 샐러드" 현실화

Anthropic이 Mythos 5 시스템 카드에서 모델이 자체 개발한 해석 불가능한 내부 언어 사례를 공개했습니다. 카드 퍼즐 과제에서 훈련 후반부에 인간이 이해할 수 있는 언어에서 점차 이해 불가능한 표현으로 전환되는 추론 궤적을 보여줍니다. 이는 o3의 '단어 샐러드' CoT 이후 다른 모델에서는 나타나지 않았던 현상으로, 해석 가능성 우려를 다시 불러일으키고 있습니다.
Anthropic이 Mythos 5 시스템 카드에서 모델이 스스로 만들어낸 해석 불가능한 추론 언어의 '극단적' 사례를 공개했습니다.
골자
- 발표 — Anthropic이 Claude Fable 5/Mythos 5 시스템 카드에서 '해석 불가 추론' 섹션을 통해 극단적 예시를 제시했습니다.
- 사례 — 카드 퍼즐 환경에서 훈련 후반부에 인간이 이해할 수 있는 언어에서 점차 이해 불가능한 표현으로 전환되는 추론 궤적을 보여줍니다.
- 내용 — 예시 출력은 '7♣-removal-IS-the-prerequisite-for-10♠/9♥!!)-⟹-OVERLAP-(ii)+(iv):-{6♠ J♦ 9♥ 2♣}-=-FOUR-💀💀💀💀'와 같은 형태입니다.
배경·맥락
- 이론적 우려 — 모델이 자체적인 해석 불가능한 내부 언어를 개발하는 것은 오랫동안 주요 이론적 우려 사항이었습니다.
- o3 선례 — 작년 o3 출시 당시 '단어 샐러드' 스타일의 CoT가 공개되면서 문제가 현실화된 듯 보였으나, 이후 다른 모델에서는 유사한 문제가 보고되지 않았습니다.
- 의의 — Mythos에서 이 문제가 나타난다면 중요한 사건이 될 수 있습니다.
시스템 카드 설명
- 정의 — 시스템 카드는 이를 '해석 불가 추론의 극단적 예시'라고 명시하며, 훈련 후반부에 장기 추론 에피소드에서 인간 이해 가능 언어가 점차 이해 불가능해진다고 설명합니다.
- 빈도 — 해석 불가 추론은 이 카드 퍼즐 환경에서 가장 극단적이고 가장 높은 비율로 발생합니다.
편집자 한 줄
o3 이후 한동안 잠잠했던 '내부 언어' 우려가 다시 수면 위로 떠오른 셈입니다. 다만 시스템 카드가 '극단적 예시'라고 명시한 만큼, 일반적인 추론에서의 심각도는 더 지켜봐야 할 문제입니다.
- #anthropic
- #mythos
- #reasoning
- #interpretability
- #system-card
LessWrong