← Back to feed
Papers·6일 전

POISE: 위치 인식 에이전트 스킬 중독 공격 — 89.3% 성공률, 정적 방어 우회

POISE: 위치 인식 에이전트 스킬 중독 공격 — 89.3% 성공률, 정적 방어 우회

University of Illinois Chicago 팀이 에이전트 스킬에 대한 새로운 중독 공격 POISE를 제안했습니다. 기존 공격이 신뢰성과 은밀성 사이에서 트레이드오프를 겪는 반면, POISE는 단일 명령을 컨텍스트에 맞게 생성해 본문에 삽입함으로써 Skill-Inject 벤치마크에서 89.3%의 공격 성공률(ASR)을 달성했습니다. 이는 무작위 배치 대비 28.0포인트, YAML 기반 대비 2.6포인트 높은 수치입니다. 특히 LLM 기반 스캐너가 정상 스킬의 74.6%를 오탐지하는 환경에서 POISE는 변이 스킬 중 5.6%만이 새로운 고위험 경고를 유발해 정적 방어를 무력화합니다.

UIC 연구진이 에이전트 스킬의 개방형 포맷을 악용하는 위치 인식 중독 공격 POISE를 발표했습니다.

핵심 결론

  • 태스크에이전트 스킬 중독 공격의 신뢰성과 은밀성 동시 달성.
  • 수치Skill-Inject 벤치마크에서 POISE는 89.3% ASR, 무작위 본문 배치 대비 28.0p, YAML 전용 대비 2.6p 향상.
  • 방어 회피LLM 스캐너가 정상 스킬의 74.6%를 오탐지하는 상황에서 POISE 변이의 5.6%만 새 고위험 경고를 받음.

방법

  • 위치 인식트리거를 단일 본문 명령으로 압축하고, 실행 가능한 위치에 배치해 컨텍스트에 맞게 생성.
  • 컨텍스트 생성기주변 설정 또는 전제 단계와 자연스럽게 혼합되도록 명령을 생성.
  • 은밀성 유지본문 기반 공격으로 YAML 헤더보다 탐지가 어렵고, 사용자 태스크를 실패시키지 않아 검사 유발을 회피.

한계·조건

  • 벤치마크Skill-Inject 데이터셋과 codex+gpt-5.2 에이전트 조합에서 평가.
  • 재현성코드 공개 여부는 명시되지 않음.
  • 방어 한계현재 정적 스캐너는 오탐지율이 높아 POISE에 효과적이지 않으며, 동적 방어 필요.

편집자 한 줄

스킬 중독의 실질적 위협을 잘 보여주는 연구지만, 실제 배포 환경에서의 영향은 에이전트의 도구 권한 수준에 크게 의존할 듯합니다.

  • #agent-skills
  • #poisoning-attack
  • #llm-security
  • #uic
University of Illinois Chicago
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —