← Back to feed
Papers·어제

Ψ-Bench: LLM의 능동적 개인화 설득 능력을 평가하는 벤치마크

Ψ-Bench: LLM의 능동적 개인화 설득 능력을 평가하는 벤치마크

Ψ-Bench는 LLM이 대화를 통해 사용자를 능동적으로 설득하는 능력을 평가하는 벤치마크입니다. 세 가지 현실적 설득 시나리오를 설계하고, 대화 이력에서 추출한 사용자 프로필을 시뮬레이션된 클라이언트에 부여했습니다. 10개 최첨단 LLM을 평가한 결과, 대부분이 일관된 주장을 생성하지만 설득력은 여전히 개선 여지가 크며, 사용자 프로필 접근 시 평균 성능이 18.24% 향상되어 개인화 정보의 중요성을 확인했습니다.

Ψ-Bench는 LLM이 사용자와의 상호작용에서 능동적으로 설득하는 능력을 평가하는 새로운 벤치마크입니다.

핵심 결론

  • 태스크세 가지 현실적 설득 시나리오(예: 제품 추천, 건강 행동 변화)에서 LLM이 사용자 프로필을 활용해 설득하는 능력 평가.
  • 결과10개 최첨단 LLM 평가 결과, 일관된 주장 생성은 가능하지만 설득력은 여전히 개선 여지가 큼.
  • 개선폭사용자 프로필 접근 시 평균 성능 18.24% 향상, 개인화 정보의 중요성 입증.

방법

  • 시나리오대화 이력에서 추출한 명시적 사용자 프로필을 시뮬레이션된 클라이언트에 부여, 현실적 상호작용 구현.
  • 평가설득 성공률, 논리적 일관성, 사용자 만족도 등 다차원 평가 지표 사용.

한계·조건

  • 범위세 가지 시나리오에 국한되며, 실제 사용자와의 상호작용이 아닌 시뮬레이션 기반.
  • 재현성코드 공개 (GitHub: Hanpx20/Psi-Bench), 단 실험 환경 재현에는 추가 설정 필요.

편집자 한 줄

개인화 설득은 LLM 에이전트의 능동성을 평가하는 흥미로운 방향이지만, 실제 배포 시 윤리적 고려가 필요할 만합니다.

  • #benchmark
  • #personalization
  • #persuasion
  • #llm
Peixuan Han
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —