Ships·1개월 전

Anthropic, Claude Mythos Preview의 취약점 익스플로잇 능력 측정 — 세 가지 벤치마크에서 최고 성능

Anthropic이 Claude Mythos Preview의 취약점 익스플로잇 능력을 측정한 세 가지 벤치마크 결과를 공개했습니다. ExploitBench, ExploitGym, 업데이트된 SCONE-bench에서 Mythos Preview가 모든 평가 모델을 능가했으며, 특히 단일 취약점을 익스플로잇 프리미티브로 전환하고 이를 결합해 완전한 공격 체인을 구성하는 능력이 이전 모델 대비 큰 도약을 보였습니다. 이 능력이 널리 보급되면 익스플로잇 개발에 필요한 지식 장벽이 크게 낮아질 수 있다는 점을 우려해, Mythos Preview는 일반 공개 대신 Project Glasswing을 통해 조심스럽게 출시되었습니다.

Anthropic이 Claude Mythos Preview의 취약점 익스플로잇 능력을 세 가지 새로운 벤치마크로 측정한 결과를 공개했습니다.

핵심 변경

익스플로잇 능력 — Mythos Preview는 단일 취약점을 익스플로잇 프리미티브로 전환하고 이를 결합해 end-to-end 공격 체인을 구성할 수 있는데, 이는 이전 모델 대비 큰 도약입니다.
벤치마크 — ExploitBench(V8 버그), ExploitGym, SCONE-bench(스마트 컨트랙트) 세 가지에서 Mythos Preview가 모든 평가 모델을 능가했습니다.
기존 공개 벤치마크는 Mythos Preview의 능력을 측정하기에 난이도가 충분하지 않아, 새로 개발된 학술 벤치마크를 사용했습니다.

가격·가용성

Mythos Preview는 일반 공개되지 않았으며, Project Glasswing을 통해 제한적으로 출시되었습니다.

제한·주의

보안 우려 — Anthropic은 Mythos Preview의 익스플로잇 능력이 널리 보급되면 취약점 개발 장벽이 낮아질 것을 우려해, 신중한 출시 전략을 선택했습니다.

편집자 한 줄

익스플로잇 능력이 정량적으로 측정된 점은 의미 있지만, 이 능력이 실제 공격에 사용될 가능성을 고려하면 제한적 출시는 당연한 선택으로 보입니다.

#anthropic
#claude-mythos-preview
#exploit-benchmark
#security
#red-team

Anthropic

원문 보기 →

Anthropic, Claude Mythos Preview의 취약점 익스플로잇 능력 측정 — 세 가지 벤치마크에서 최고 성능

핵심 변경

가격·가용성

제한·주의

Comments