Papers·1개월 전

SafeHarbor: LLM 에이전트 도구 사용 안전성과 유용성 사이의 정밀한 경계 설정

북항대 연구팀이 LLM 에이전트의 도구 사용 시 안전성과 유용성 간 트레이드오프를 해결하는 프레임워크 SafeHarbor를 제안했습니다. 기존 방어 기법은 과도한 거절(over-refusal)로 인해 정상 작업의 유용성을 떨어뜨리는 문제가 있었는데, SafeHarbor는 적대적 생성을 통해 문맥 인식 방어 규칙을 추출하고, 계층적 메모리 시스템으로 동적 규칙 주입을 수행합니다. 정보 엔트로피 기반 자기 진화 메커니즘으로 메모리 구조를 최적화하며, GPT-4o에서 정상 작업 유용성 63.6%, 유해 요청 거절률 93% 이상을 달성했습니다. 코드는 공개되어 있으나, 실험 환경이 구체적으로 명시되지 않아 재현성 확인이 필요합니다.

#llm-agents
#safety
#tool-use
#beihang-university

Beihang University

원문 보기 →

SafeHarbor: LLM 에이전트 도구 사용 안전성과 유용성 사이의 정밀한 경계 설정

Comments