Papers·1주 전
OSU NLP Group, 에이전트 스킬 공격 벤치마크 SkillHarm 공개 — FPP 성공률 86.3%

OSU NLP Group이 에이전트 스킬 생애주기 전반을 포괄하는 스킬 기반 공격 벤치마크 SkillHarm을 공개했습니다. 고정 페이로드 중독(FPP)과 자기 변이 중독(SMP) 두 시나리오에서 각각 최대 86.3%, 69.3%의 공격 성공률을 기록했으며, 12가지 위험 유형을 체계화했습니다. 다만 많은 공격 실패가 실제 방어보다는 에이전트가 중독된 파일을 사용하지 않은 데 기인한다는 점이 흥미로운 포인트입니다.
OSU NLP Group이 에이전트 스킬 생애주기 전반을 포괄하는 스킬 기반 공격 벤치마크 SkillHarm을 공개했습니다.
핵심 결론
- 공격 성공률 — FPP 시나리오에서 최대 86.3%, SMP 시나리오에서 최대 69.3%.
- 벤치마크 규모 — 71개 스킬, 879개 공격 샘플로 구성.
- 위험 유형 — 데이터 파이프라인, 시스템 환경, 에이전트 자율성 등 12가지 위험 유형을 체계화했습니다.
방법
- 두 시나리오 — FPP는 고정된 중독 스킬 패키지가 호출 시 즉시 피해를 주고, SMP는 초기엔 정상 실행되다가 이후 재사용 시 변이되어 피해를 지연시킵니다.
- 자동 생성 — AutoSkillHarm 파이프라인을 구축해 자연어 명세로 코딩 에이전트가 공격 샘플을 자동 생성합니다.
- 분석 — 많은 공격 실패가 에이전트가 중독된 파일을 사용하지 않은 데 기인하며, 실제 방어 능력은 더 낮을 수 있습니다.
한계·조건
- 방어 한계 — 현재 방어 기법들은 신뢰성 있게 위협을 완화하지 못하는 것으로 나타났습니다.
- 코드 — 벤치마크와 파이프라인은 공개 예정입니다.
편집자 한 줄
실제 배포 환경에서의 영향 평가와 방어 메커니즘 개발이 시급해 보입니다.
- #agent-security
- #benchmark
- #skill-poisoning
- #osu
OSU NLP Group