← Back to feed
Ships·3시간 전

Anthropic, Claude Mythos Preview의 취약점 익스플로잇 능력 측정 — 세 가지 벤치마크에서 최고 성능

Anthropic, Claude Mythos Preview의 취약점 익스플로잇 능력 측정 — 세 가지 벤치마크에서 최고 성능

Anthropic이 Claude Mythos Preview의 취약점 익스플로잇 능력을 측정한 세 가지 벤치마크 결과를 공개했습니다. ExploitBench, ExploitGym, 업데이트된 SCONE-bench에서 Mythos Preview가 모든 평가 모델을 능가했으며, 특히 단일 취약점을 익스플로잇 프리미티브로 전환하고 이를 결합해 완전한 공격 체인을 구성하는 능력이 이전 모델 대비 큰 도약을 보였습니다. 이 능력이 널리 보급되면 익스플로잇 개발에 필요한 지식 장벽이 크게 낮아질 수 있다는 점을 우려해, Mythos Preview는 일반 공개 대신 Project Glasswing을 통해 조심스럽게 출시되었습니다.

Anthropic이 Claude Mythos Preview의 취약점 익스플로잇 능력을 세 가지 새로운 벤치마크로 측정한 결과를 공개했습니다.

핵심 변경

  • 익스플로잇 능력Mythos Preview는 단일 취약점을 익스플로잇 프리미티브로 전환하고 이를 결합해 end-to-end 공격 체인을 구성할 수 있는데, 이는 이전 모델 대비 큰 도약입니다.
  • 벤치마크ExploitBench(V8 버그), ExploitGym, SCONE-bench(스마트 컨트랙트) 세 가지에서 Mythos Preview가 모든 평가 모델을 능가했습니다.
  • 기존 공개 벤치마크는 Mythos Preview의 능력을 측정하기에 난이도가 충분하지 않아, 새로 개발된 학술 벤치마크를 사용했습니다.

가격·가용성

  • Mythos Preview는 일반 공개되지 않았으며, Project Glasswing을 통해 제한적으로 출시되었습니다.

제한·주의

  • 보안 우려Anthropic은 Mythos Preview의 익스플로잇 능력이 널리 보급되면 취약점 개발 장벽이 낮아질 것을 우려해, 신중한 출시 전략을 선택했습니다.

편집자 한 줄

익스플로잇 능력이 정량적으로 측정된 점은 의미 있지만, 이 능력이 실제 공격에 사용될 가능성을 고려하면 제한적 출시는 당연한 선택으로 보입니다.

  • #anthropic
  • #claude-mythos-preview
  • #exploit-benchmark
  • #security
  • #red-team
Anthropic
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —