Papers·1개월 전

UC Santa Barbara, LLM 에이전트 실행 하네스의 안전성 감사 프레임워크 HarnessAudit 공개 — 210개 태스크에서 경로 위반 탐지

UC Santa Barbara NLP Group이 LLM 에이전트의 실행 하네스가 중간 경로에서 권한 경계·정보 흐름을 위반하는지를 감사하는 HarnessAudit 프레임워크와 210개 태스크 벤치마크를 발표했습니다. 기존 출력-수준 평가로는 탐지되지 않는 자원 접근·에이전트 간 정보 전송 위반이 전체 위반의 대부분을 차지하며, 다중 에이전트 협업이 안전 위험 표면을 확장한다는 점을 확인했습니다. 흥미로운 점은 태스크 완료율과 안전한 실행이 정렬되지 않았고, 위반이 경로 길이에 따라 누적된다는 분석입니다.

#llm-agents
#safety
#multi-agent
#harness-audit
#ucsb

UC Santa Barbara NLP Group

원문 보기 →

UC Santa Barbara, LLM 에이전트 실행 하네스의 안전성 감사 프레임워크 HarnessAudit 공개 — 210개 태스크에서 경로 위반 탐지

Comments