Papers·1주 전
에이전트 실행 추적의 보안 위험과 보호 — RedAct, 스킬 유출 44.7~67.1%에서 기준 이하로 감소

사용자가 에이전트 동작을 추적하기 위해 의존하는 실행 추적(trace)에는 도구 호출, 중간 결정, 오류 복구 로직 등 풍부한 절차적 세부 정보가 포함되어 있어, 모델 가중치나 스킬 파일 없이도 핵심 공식·임계값·전략을 유출할 수 있는 보안 위험이 있습니다. 이를 정량화하기 위해 7개 도메인 75개 태스크·154개 스킬로 구성된 CapTraceBench를 구축하고, 보호된 추적 공개 프레임워크 RedAct를 제안했습니다. RedAct는 민감 정보를 지역화하고, 검증자에게 중요한 증거는 보존하면서 추적을 재작성하며, 행동 워터마크를 삽입합니다. 대표적인 추적 재사용 방법에서 RedAct는 정규화된 스킬 전이(NST)를 원시 추적의 44.7~67.1%에서 무스킬 기준선 이하로 낮추고, 감사 증거는 보존했습니다. 워터마크 탐지율은 93.6~100.0%, 오경보율은 최대 1.9%입니다.
에이전트 실행 추적이 절차적 스킬을 유출할 수 있다는 보안 위험을 정량화하고, 선택적 삭제로 이를 방어하는 RedAct 프레임워크를 소개합니다.
핵심 결론
- 위험 정량화 — 원시 추적에서 NST(정규화된 스킬 전이)가 44.7~67.1%에 달해, 모델 가중치 없이도 상당한 스킬 유출이 가능함을 확인.
- 방어 효과 — RedAct 적용 시 NST가 무스킬 기준선 이하로 감소하며, 감사 증거는 유지.
- 워터마크 — 행동 워터마크 탐지율 93.6~100.0%, 오경보율 최대 1.9%로 출처 추적 가능.
방법
- CapTraceBench — 7개 도메인(코딩, 데이터 분석, 웹 등) 75개 장기 태스크와 154개 큐레이션 스킬로 구성된 벤치마크.
- RedAct — 보호 대상 정보를 지역화(localize)하고, 검증자에게 중요한 증거는 보존하면서 추적을 재작성. 행동 워터마크를 삽입해 다운스트림 출처 분석 지원.
- 추적 재사용 방법으로는 프롬프트 기반 추출, 미세조정, 에이전트 복제 등 대표적 기법을 평가.
한계·조건
- 스킬 정의 — 스킬은 수동으로 큐레이션되어 실제 환경의 다양성을 완전히 반영하지 못할 수 있음.
- 재현성 — RedAct 코드는 GitHub에 공개되어 있으나, 워터마크 강도와 재작성 품질 간 트레이드오프는 추가 연구 필요.
- 적용 범위 — 현재는 텍스트 기반 에이전트 추적에 초점; 멀티모달 추적에 대한 확장은 추후 과제.
편집자 한 줄
에이전트 추적의 보안 측면을 체계적으로 다룬 첫 벤치마크라는 점에서 의미가 있습니다. 실제 배포 환경에서의 적용 가능성은 아직 검증이 필요해 보입니다.
- #agent
- #security
- #trace
- #redaction
- #capability-leakage
Shuwen Xu