News·1개월 전

Claude Mythos, 취약점 탐지 능력 논란 — 회의론과 실제 성능

Anthropic이 Claude Mythos Preview 접근을 제한한 가운데, 사이버 보안 커뮤니티에서 Mythos의 취약점 발견·익스플로잇 능력이 과장됐다는 논쟁이 일고 있습니다. 회의론은 AISLE Security의 저가 모델 동등 성능, GPT-5.5와의 비교, cURL 프로젝트에서 단 1건의 경미한 버그 발견 등을 근거로 듭니다. 그러나 실제 취약점 발견·익스플로잇 벤치마크(XBOW AI, ExploitBench)에서는 Mythos가 GPT-5.5를 크게 앞섰고, Semgrep의 실험에서 AISLE 결과가 재현되지 않는 등 반론도 만만치 않습니다. 저자는 대부분의 사이버 능력에서는 회의론이 옳지만, 취약점 발견·익스플로잇 분야에서는 Mythos가 확실히 앞선다고 결론짓습니다.

Anthropic이 클로즈드 베타로 전환한 Claude Mythos의 취약점 탐지 능력을 둘러싸고 회의론과 옹호론이 팽팽히 맞서고 있습니다.

골자

사건 — Anthropic이 Claude Mythos Preview 접근을 제한, 취약점 발견·익스플로잇 능력의 급격한 향상을 이유로 밝힘.
논란 — 회의론자들은 (1) AISLE Security의 저가 모델 동등 성능, (2) GPT-5.5와의 벤치마크 유사성, (3) cURL 프로젝트에서 단 1건의 경미한 버그 발견을 근거로 Mythos의 능력이 과장됐다고 주장.
반론 — Semgrep의 실험에서 AISLE 결과가 재현되지 않았고, XBOW AI·ExploitBench 같은 취약점 발견·익스플로잇 전용 벤치마크에서는 Mythos가 GPT-5.5를 크게 앞섰음.

배경·맥락

AI가 취약점 연구를 가속화하고 있다는 증거는 늘고 있음. 2025년은 보고된 소프트웨어 취약점 수가 사상 최대를 기록한 해.
Trail of Bits 같은 보안 기업은 AI가 작업 흐름을 극적으로 단축했다고 공개적으로 밝혔고, 많은 최상위 취약점 헌터는 이제 Claude Code를 돌리는 일이 대부분이라고 토로.
이러한 논의는 대부분 Mythos의 존재가 공개되기 전에 나온 것이라, Mythos가 실제로 게임 체인저인지에 대한 의문이 제기됨.

저자 평가

대부분의 사이버 능력 — 회의론이 옳음. Mythos는 GPT-5.5보다 극적으로 앞서지 않으며, GPT-5.5가 대부분의 사용 사례에서 비용 효율적.
취약점 발견·익스플로잇 — 회의론은 과도함. AISLE Security의 결과는 유사 조건에서 재현되지 않았고, 전용 벤치마크에서는 Mythos가 확실히 앞섬.
cURL 결과 — 실제로 단 1건의 경미한 버그를 찾았지만, Firefox와 Palo Alto Networks는 반대 패턴을 보고했음. 더 많은 데이터가 필요.

편집자 한 줄

저자는 펜테스트·버그 바운티 경험을 가진 실무자로, 논쟁을 기술적 근거로 정리한 점이 인상적입니다.

#anthropic
#claude-mythos
#cybersecurity
#vulnerability-research
#ai-safety

LessWrong

원문 보기 →

Claude Mythos, 취약점 탐지 능력 논란 — 회의론과 실제 성능

골자

배경·맥락

저자 평가

Comments