Papers·1개월 전

Ant Group, 컴퓨터 사용 에이전트 보호를 위한 자기진화 방어 프레임워크 BraveGuard — AgentHazard 탐지 정확도 38.79% → 82.38%

Ant Group이 컴퓨터 사용 에이전트의 다단계 실행 궤적에서 발생하는 안전 위험을 탐지하는 자기진화 방어 프레임워크 BraveGuard를 제안했습니다. BraveGuard는 오픈월드 위협 신호와 실제 에이전트 궤적을 기반으로 가드 모델을 훈련하며, AgentHazard 벤치마크에서 평균 가드 모델 설정 시 탐지 정확도를 38.79%에서 82.38%로 크게 향상시켰습니다. 다만 이 결과는 특정 벤치마크에 국한되며, 실제 배포 환경에서의 일반화 가능성은 추가 검증이 필요합니다.

컴퓨터 사용 에이전트의 다단계 실행 궤적에서 안전 위험을 탐지하는 자기진화 방어 프레임워크 BraveGuard가 AgentHazard에서 탐지 정확도를 2배 이상 끌어올렸습니다.

핵심 결론

태스크 — 컴퓨터 사용 에이전트의 다단계 실행 궤적에서 안전 위험(악성 명령, 데이터 유출 등) 탐지.
성능 — AgentHazard 벤치마크에서 평균 가드 모델 설정 시 탐지 정확도 38.79% → 82.38%.
백본 — Qwen3-Guard, Llama-Guard 등 여러 가드 모델 백본에서 일관된 개선 확인.

방법

자기진화 루프 — 최신 연구 소스에서 위협 패턴을 마이닝하고, 이를 실행 가능한 태스크로 인스턴스화한 뒤 에이전트 롤아웃을 수집해 궤적 수준의 감독 신호를 생성.
고정 분류 체계 탈피 — 기존 가드 모델이 고정된 분류 체계와 합성 프롬프트 수준 데이터에 의존하는 반면, BraveGuard는 실제 에이전트 실행 궤적에서 얻은 감독 신호로 훈련.
반복 가능 — 새로운 위협이 등장하거나 검증 실패가 발생하면 파이프라인을 반복 실행할 수 있어 정적 방어가 아닌 적응형 방어 루프를 제공.

한계·조건

벤치마크 의존 — AgentHazard 벤치마크에 특화된 결과이며, 실제 다양한 환경에서의 일반화 가능성은 추가 검증 필요.
리소스 — 위협 마이닝과 에이전트 롤아웃 수집에 상당한 컴퓨팅 자원이 소요될 수 있음.
코드 공개 — 현재 논문에서 코드 공개 여부는 명시되지 않음.

편집자 한 줄

고정 분류 체계를 벗어나 실제 에이전트 실행 궤적에서 위험을 학습한다는 점이 인상적입니다. 다만 벤치마크 외 환경에서도 동일한 효과를 보일지는 지켜볼 필요가 있겠네요.

#agent-safety
#guard-model
#ant-group
#computer-use
#self-evolving

Ant Group

원문 보기 →

Ant Group, 컴퓨터 사용 에이전트 보호를 위한 자기진화 방어 프레임워크 BraveGuard — AgentHazard 탐지 정확도 38.79% → 82.38%

핵심 결론

방법

한계·조건

Comments