Papers·1개월 전

Agent-ValueBench: 에이전트 가치 측정 첫 벤치마크 — LLM과 다른 가치, Harness 정렬 필요

Peking University 팀이 에이전트의 가치(value)를 평가하는 첫 번째 벤치마크 Agent-ValueBench를 공개했습니다. 16개 도메인, 4,335개의 가치 충돌 태스크로 구성되며, 14개 모델을 4개 harness에서 테스트한 결과 에이전트의 가치는 기반 LLM과 다르며, harness의 영향이 크다는 점을 발견했습니다. 이는 에이전트 정렬이 모델 정렬에서 harness 정렬과 skill steering으로 이동해야 함을 시사합니다.

#agent-values
#benchmark
#alignment
#peking-university

Peking University

원문 보기 →

Agent-ValueBench: 에이전트 가치 측정 첫 벤치마크 — LLM과 다른 가치, Harness 정렬 필요

Comments