Papers·1개월 전

ClawTrojan: LLM 에이전트의 다단계 트로이 목마 공격 탐지 및 방어 — GPT-5.4에서 95.5% ASR

Jiejun Tan 팀이 LLM 에이전트가 파일 읽기/쓰기 등 로컬 작업을 수행할 때 발생하는 다단계 트로이 목마 공격을 탐지하는 벤치마크 ClawTrojan과 방어 기법 DASGuard를 제안했습니다. GPT-5.4 기반 시뮬레이션에서 ClawTrojan은 95.5%의 공격 성공률을 기록했으며, 기존 단일 턴 프롬프트 인젝션은 거의 0%에 가까웠습니다. DASGuard는 민감 파일 내 제어 텍스트를 스캔하고 신뢰할 수 없는 출처의 내용을 제거하여 동적 방어를 제공합니다.

LLM 에이전트가 로컬 환경에서 파일을 읽고 쓰며 작업을 수행할 때, 다단계 트로이 목마 공격이 가능하다는 점을 보여주는 벤치마크와 방어 기법이 공개됐습니다.

핵심 결론

공격 성공률 — ClawTrojan 벤치마크에서 GPT-5.4 기반 에이전트 대상 95.5% ASR 달성.
기존 대비 — 단일 턴 프롬프트 인젝션은 동일 모델에서 거의 0% ASR로, 다단계 공격의 위험성을 부각.
방어 효과 — DASGuard는 동적 방어로 공격 차단과 워크스페이스 정리를 함께 수행.

방법

ClawTrojan — OpenClaw 스타일 시뮬레이션 환경에서 다단계 트로이 목마 공격을 설계. 각 단계는 개별적으로는 의심스럽지 않지만, 결합 시 지속적인 제어를 가능하게 함.
공격 메커니즘 — 공격자는 파일이나 도구 출력에 프롬프트 인젝션을 숨기고, 에이전트가 이를 읽어 저장한 후 나중에 실행하도록 유도.
DASGuard — 민감 로컬 파일에서 제어 텍스트를 스캔하고, 신뢰할 수 없는 출처의 내용을 추적해 제거. 런타임 차단과 정리 커밋을 결합.

한계·조건

환경 — 벤치마크는 OpenClaw 시뮬레이션 환경에서만 검증되었으며, 실제 워크스페이스에서의 일반화는 추가 연구 필요.
모델 의존성 — GPT-5.4에 특화된 결과로, 다른 모델에서의 ASR 및 방어 성능은 다를 수 있음.
코드 — 논문에서 코드 공개 여부는 명시되지 않음.

편집자 한 줄

다단계 공격이라는 점에서 기존 단일 턴 방어의 사각지대를 잘 짚었네요. 실제 배포 환경에서의 실용성은 후속 연구를 지켜봐야 할 듯합니다.

#llm-agents
#prompt-injection
#security
#benchmark
#gpt-5

Jiejun Tan

원문 보기 →

ClawTrojan: LLM 에이전트의 다단계 트로이 목마 공격 탐지 및 방어 — GPT-5.4에서 95.5% ASR

핵심 결론

방법

한계·조건

Comments