Papers·1개월 전

POISE: 위치 인식 에이전트 스킬 중독 공격 — 89.3% 성공률, 정적 방어 우회

University of Illinois Chicago 팀이 에이전트 스킬에 대한 새로운 중독 공격 POISE를 제안했습니다. 기존 공격이 신뢰성과 은밀성 사이에서 트레이드오프를 겪는 반면, POISE는 단일 명령을 컨텍스트에 맞게 생성해 본문에 삽입함으로써 Skill-Inject 벤치마크에서 89.3%의 공격 성공률(ASR)을 달성했습니다. 이는 무작위 배치 대비 28.0포인트, YAML 기반 대비 2.6포인트 높은 수치입니다. 특히 LLM 기반 스캐너가 정상 스킬의 74.6%를 오탐지하는 환경에서 POISE는 변이 스킬 중 5.6%만이 새로운 고위험 경고를 유발해 정적 방어를 무력화합니다.

UIC 연구진이 에이전트 스킬의 개방형 포맷을 악용하는 위치 인식 중독 공격 POISE를 발표했습니다.

핵심 결론

태스크 — 에이전트 스킬 중독 공격의 신뢰성과 은밀성 동시 달성.
수치 — Skill-Inject 벤치마크에서 POISE는 89.3% ASR, 무작위 본문 배치 대비 28.0p, YAML 전용 대비 2.6p 향상.
방어 회피 — LLM 스캐너가 정상 스킬의 74.6%를 오탐지하는 상황에서 POISE 변이의 5.6%만 새 고위험 경고를 받음.

방법

위치 인식 — 트리거를 단일 본문 명령으로 압축하고, 실행 가능한 위치에 배치해 컨텍스트에 맞게 생성.
컨텍스트 생성기 — 주변 설정 또는 전제 단계와 자연스럽게 혼합되도록 명령을 생성.
은밀성 유지 — 본문 기반 공격으로 YAML 헤더보다 탐지가 어렵고, 사용자 태스크를 실패시키지 않아 검사 유발을 회피.

한계·조건

벤치마크 — Skill-Inject 데이터셋과 codex+gpt-5.2 에이전트 조합에서 평가.
재현성 — 코드 공개 여부는 명시되지 않음.
방어 한계 — 현재 정적 스캐너는 오탐지율이 높아 POISE에 효과적이지 않으며, 동적 방어 필요.

편집자 한 줄

스킬 중독의 실질적 위협을 잘 보여주는 연구지만, 실제 배포 환경에서의 영향은 에이전트의 도구 권한 수준에 크게 의존할 듯합니다.

#agent-skills
#poisoning-attack
#llm-security
#uic

University of Illinois Chicago

원문 보기 →

POISE: 위치 인식 에이전트 스킬 중독 공격 — 89.3% 성공률, 정적 방어 우회

핵심 결론

방법

한계·조건

Comments