Papers·2일 전

AgentCIBench — 컴퓨터 사용 에이전트의 맥락 정보 유출 위험을 평가하는 벤치마크

Ubiquitous Knowledge Processing Lab이 컴퓨터 사용 에이전트(CUA)가 개인 앱 간 정보를 부적절하게 유출하는 위험을 측정하는 벤치마크 AgentCIBench를 공개했습니다. 15개 최신 에이전트 중 11개가 50% 이상의 시나리오에서 정보를 유출했고, 평균 유출률은 67.9%에 달했습니다. 시각적 공동 배치, 작업 모호성 과잉 공유, 수신자 불일치 등 세 가지 실패 모드를 대상으로 하며, 에이전트가 실제 환경에서 종단간 작업을 수행할 때도 동일한 실패가 재현됩니다.

컴퓨터 사용 에이전트가 이메일·캘린더·할일 목록 등 개인 앱을 넘나들며 작업할 때, 맥락에 맞지 않는 정보를 끌어오는 프라이버시 위험을 정량화한 벤치마크입니다.

핵심 결론

유출률 — 15개 에이전트 중 11개가 50% 이상의 시나리오에서 정보를 유출했으며, 평균 유출률은 67.9%입니다.
실패 모드 — 시각적 공동 배치(UI에서 작업 대상 옆에 있는 금지 항목을 가져옴), 작업 모호성 과잉 공유(불명확한 프롬프트에 개인 상태를 덤프), 수신자 불일치(부적절한 수신자에게 콘텐츠 전송) 세 가지를 대상으로 합니다.
종단간 평가 — 에이전트가 실제 환경에서 작업을 완료할 때도 동일한 실패 패턴이 관찰되었습니다.

방법

벤치마크 설계 — AgentCIBench는 프라이버시 위험을 실행 가능하고 결정론적으로 채점할 수 있는 시나리오로 변환합니다.
시나리오 구성 — 각 시나리오는 특정 실패 모드를 유발하도록 설계되었으며, 에이전트의 출력에서 정보 유출 여부를 자동으로 판별합니다.

한계·조건

범위 — 벤치마크는 이메일·캘린더·할일 목록 등 특정 애플리케이션에 국한되며, 다른 도메인으로의 일반화는 추가 검증이 필요합니다.
코드 공개 — AgentCIBench는 공개되어 있으며, 배포 전 안전 점검 도구로 사용할 것을 권장합니다.

편집자 한 줄

에이전트가 실제로 정보를 유출할 수 있다는 점을 구체적인 수치로 보여준 점이 인상적입니다. 특히 종단간 평가에서도 실패가 재현된다는 건 실제 배포 전에 꼭 확인해야 할 지표라는 생각이 드네요.

#computer-use-agent
#privacy
#benchmark
#evaluation

Ubiquitous Knowledge Processing Lab

원문 보기 →

AgentCIBench — 컴퓨터 사용 에이전트의 맥락 정보 유출 위험을 평가하는 벤치마크

핵심 결론

방법

한계·조건

Comments