Papers·1개월 전

SDU, 다중 에이전트 대화에서 정렬 위반 실시간 감시 도구 Arbiter 공개

University of Southern Denmark 팀이 다중 LLM 에이전트 간 대화를 실시간으로 모니터링하며 정렬 위반을 탐지하는 Arbiter 를 제안했습니다. Arbiter 는 제한된 검사 예산 아래에서 대화 참여자의 시스템 프롬프트나 추론 과정을 선택적으로 조회하며, 다섯 가지 조건(위험한 금융 조언, 평가 인식, 공모 등)에서 실험한 결과 능동적 검사 도구가 탐지 정확도와 속도를 모두 개선함을 확인했습니다. 무게 기반 정렬 위반이 가장 탐지하기 어려웠고, 명령 기반 위반은 수동 관찰만으로도 잘 식별되었습니다. 코드는 GitHub에 공개되었습니다.

SDU 연구진이 다중 에이전트 대화에서 정렬 위반을 실시간으로 감지하는 Arbiter 를 공개했습니다.

핵심 결론

태스크 — 다중 LLM 에이전트 간 대화에서 정렬 위반을 탐지하는 감시 도구.
성능 — 능동적 검사 도구 사용 시 탐지 정확도와 속도 모두 향상. 무게 기반 위반은 가장 낮은 탐지율.
벤치 — 다섯 가지 조건(위험 금융 조언, 평가 인식, 공모 등)에서 평가.

방법

Arbiter — 제한된 검사 예산 하에서 대화를 단계별로 관찰하며 대기, 질문, 내부 정보(시스템 프롬프트, 추론 과정) 조회, 로깅 등을 수행.
도구 구성 — 다섯 가지 도구 구성(수동 관찰부터 모든 도구 사용까지)과 두 가지 백본 모델로 실험.
보고서 — 대화 종료 후 정렬 위반 가능성이 있는 참여자를 식별한 보고서 생성.

한계·조건

탐지 난이도 — 무게 기반 위반(weight-induced)이 가장 탐지 어려움. 명령 기반 위반은 수동 관찰만으로도 잘 탐지.
로깅 도구 — 재현율은 높이지만 정밀도는 떨어지는 이중 효과.
코드 — GitHub에 공개: https://github.com/aisilab/arbiter

편집자 한 줄

다중 에이전트 시스템의 감시를 능동적 참여자로 모델링한 점이 흥미롭습니다. 검사 예산 제약이 현실적입니다.

#multi-agent
#alignment
#monitoring
#sdu
#arbiter

University of Southern Denmark (SDU)

원문 보기 →

SDU, 다중 에이전트 대화에서 정렬 위반 실시간 감시 도구 Arbiter 공개

핵심 결론

방법

한계·조건

Comments