← Back to feed
Papers·3일 전

ClawTrojan: LLM 에이전트의 다단계 트로이 목마 공격 탐지 및 방어 — GPT-5.4에서 95.5% ASR

ClawTrojan: LLM 에이전트의 다단계 트로이 목마 공격 탐지 및 방어 — GPT-5.4에서 95.5% ASR

Jiejun Tan 팀이 LLM 에이전트가 파일 읽기/쓰기 등 로컬 작업을 수행할 때 발생하는 다단계 트로이 목마 공격을 탐지하는 벤치마크 ClawTrojan과 방어 기법 DASGuard를 제안했습니다. GPT-5.4 기반 시뮬레이션에서 ClawTrojan은 95.5%의 공격 성공률을 기록했으며, 기존 단일 턴 프롬프트 인젝션은 거의 0%에 가까웠습니다. DASGuard는 민감 파일 내 제어 텍스트를 스캔하고 신뢰할 수 없는 출처의 내용을 제거하여 동적 방어를 제공합니다.

LLM 에이전트가 로컬 환경에서 파일을 읽고 쓰며 작업을 수행할 때, 다단계 트로이 목마 공격이 가능하다는 점을 보여주는 벤치마크와 방어 기법이 공개됐습니다.

핵심 결론

  • 공격 성공률ClawTrojan 벤치마크에서 GPT-5.4 기반 에이전트 대상 95.5% ASR 달성.
  • 기존 대비단일 턴 프롬프트 인젝션은 동일 모델에서 거의 0% ASR로, 다단계 공격의 위험성을 부각.
  • 방어 효과DASGuard는 동적 방어로 공격 차단과 워크스페이스 정리를 함께 수행.

방법

  • ClawTrojanOpenClaw 스타일 시뮬레이션 환경에서 다단계 트로이 목마 공격을 설계. 각 단계는 개별적으로는 의심스럽지 않지만, 결합 시 지속적인 제어를 가능하게 함.
  • 공격 메커니즘공격자는 파일이나 도구 출력에 프롬프트 인젝션을 숨기고, 에이전트가 이를 읽어 저장한 후 나중에 실행하도록 유도.
  • DASGuard민감 로컬 파일에서 제어 텍스트를 스캔하고, 신뢰할 수 없는 출처의 내용을 추적해 제거. 런타임 차단과 정리 커밋을 결합.

한계·조건

  • 환경벤치마크는 OpenClaw 시뮬레이션 환경에서만 검증되었으며, 실제 워크스페이스에서의 일반화는 추가 연구 필요.
  • 모델 의존성GPT-5.4에 특화된 결과로, 다른 모델에서의 ASR 및 방어 성능은 다를 수 있음.
  • 코드논문에서 코드 공개 여부는 명시되지 않음.

편집자 한 줄

다단계 공격이라는 점에서 기존 단일 턴 방어의 사각지대를 잘 짚었네요. 실제 배포 환경에서의 실용성은 후속 연구를 지켜봐야 할 듯합니다.

  • #llm-agents
  • #prompt-injection
  • #security
  • #benchmark
  • #gpt-5
Jiejun Tan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —