← Back to feed
Papers·1주 전

SCOUT: 프롬프트 인젝션 탐지를 동적 디텍터 할당으로 전환 — 공격 성공률 46% 감소

SCOUT: 프롬프트 인젝션 탐지를 동적 디텍터 할당으로 전환 — 공격 성공률 46% 감소

기존 프롬프트 인젝션 방어는 고정된 단일 탐지기 파이프라인에 의존하지만, 각 탐지기가 강한 공격 유형이 달라 항상 신뢰할 수 없습니다. SCOUT는 요청별로 탐지기 신뢰도와 지연 시간을 예측해 동적으로 할당하고, 필요시 LLM 심사관으로 에스컬레이션하는 프레임워크입니다. SCOUT-450 벤치마크에서 안전 중심 설정 시 항상 GPT-4o 심사관을 사용하는 방식 대비 공격 성공률 46%, 총 지연 시간 40% 감소를 달성했으며, 세 가지 외부 벤치마크에서도 안전-유틸리티 프론티어를 개선했습니다.

프롬프트 인젝션 탐지기를 요청별로 동적으로 할당해 공격 성공률을 낮추고 지연 시간을 줄이는 프레임워크 SCOUT이 공개되었습니다.

핵심 결론

  • 태스크프롬프트 인젝션 방어를 고정 파이프라인 대신 동적 디텍터 할당 문제로 재정의.
  • 수치SCOUT-450 벤치마크에서 안전 중심 설정 기준, 항상 GPT-4o 심사관을 사용하는 방식보다 공격 성공률 46% 감소, 총 지연 시간 40% 감소, 벤-유틸리티 5.1포인트 하락.
  • 일반화BIPIA, IPI, IHEval 세 외부 벤치마크에서도 안전-유틸리티 프론티어 개선 확인.

방법

  • 동적 할당각 탐지기의 과거 유사 입력에 대한 동작을 바탕으로 per-sample 신뢰도와 지연 시간을 예측해, 요청별로 어떤 탐지기를 실행하고 LLM 심사관으로 에스컬레이션할지 결정.
  • 단일 임계값운영자는 안전-유틸리티 트레이드오프를 조절하는 단일 임계값만 설정하면 됩니다. 유틸리티는 정상 통과율과 실제 소요 시간을 함께 고려.
  • 벤치마크SCOUT-450은 기존 프롬프트 인젝션 데이터셋이 잘 다루지 못하는 구조적으로 복잡한 에이전트 대상 공격을 포함해 구축.

한계·조건

  • 가정여러 탐지기를 미리 확보하고 각각의 과거 동작 기록이 있어야 하므로, 탐지기 풀이 작은 환경에서는 효과가 제한적일 수 있습니다.
  • 코드현재 논문과 벤치마크만 공개, 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

탐지기 간 이질성을 활용해 자원을 효율적으로 배분하는 접근은 실용적이면서도 새로운 방향입니다. 다만 LLM 심사관 비용이 완전히 사라진 것은 아니라는 점을 감안해야 합니다.

  • #prompt-injection
  • #security
  • #llm
  • #defense
  • #safety
Shuhao Zhang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —