Papers·어제
Ψ-Bench: LLM의 능동적 개인화 설득 능력을 평가하는 벤치마크

Ψ-Bench는 LLM이 대화를 통해 사용자를 능동적으로 설득하는 능력을 평가하는 벤치마크입니다. 세 가지 현실적 설득 시나리오를 설계하고, 대화 이력에서 추출한 사용자 프로필을 시뮬레이션된 클라이언트에 부여했습니다. 10개 최첨단 LLM을 평가한 결과, 대부분이 일관된 주장을 생성하지만 설득력은 여전히 개선 여지가 크며, 사용자 프로필 접근 시 평균 성능이 18.24% 향상되어 개인화 정보의 중요성을 확인했습니다.
Ψ-Bench는 LLM이 사용자와의 상호작용에서 능동적으로 설득하는 능력을 평가하는 새로운 벤치마크입니다.
핵심 결론
- 태스크 — 세 가지 현실적 설득 시나리오(예: 제품 추천, 건강 행동 변화)에서 LLM이 사용자 프로필을 활용해 설득하는 능력 평가.
- 결과 — 10개 최첨단 LLM 평가 결과, 일관된 주장 생성은 가능하지만 설득력은 여전히 개선 여지가 큼.
- 개선폭 — 사용자 프로필 접근 시 평균 성능 18.24% 향상, 개인화 정보의 중요성 입증.
방법
- 시나리오 — 대화 이력에서 추출한 명시적 사용자 프로필을 시뮬레이션된 클라이언트에 부여, 현실적 상호작용 구현.
- 평가 — 설득 성공률, 논리적 일관성, 사용자 만족도 등 다차원 평가 지표 사용.
한계·조건
- 범위 — 세 가지 시나리오에 국한되며, 실제 사용자와의 상호작용이 아닌 시뮬레이션 기반.
- 재현성 — 코드 공개 (GitHub: Hanpx20/Psi-Bench), 단 실험 환경 재현에는 추가 설정 필요.
편집자 한 줄
개인화 설득은 LLM 에이전트의 능동성을 평가하는 흥미로운 방향이지만, 실제 배포 시 윤리적 고려가 필요할 만합니다.
- #benchmark
- #personalization
- #persuasion
- #llm
Peixuan Han