Papers·1개월 전

서울대, LLM 성격 평가 설문의 한계 — 실제 사용자 질문과 응답 확률 기반 측정이 더 정확

서울대 연구팀이 8개 오픈소스 LLM을 대상으로 인간 심리 설문(PVQ-40/21, BFI-44/10)과 실제 사용자 쿼리에 대한 생성 확률 기반 측정을 비교한 결과, 두 프로파일이 크게 다르다는 점을 발견했습니다. 설문 항목은 명시적 단서로 인해 모델이 사회적 바람직성에 맞춰 응답하는 반면, 실제 쿼리에서는 일관성이 사라집니다. 인구통계학적 페르소나 프롬프트도 설문 응답에만 영향을 주고 실제 쿼리 응답에는 영향을 주지 않아, 기존 심리 설문이 LLM 행동 예측에 부적합함을 시사합니다.

서울대 연구팀이 인간 심리 설문이 LLM의 실제 사용자 상호작용 행동을 예측하는 데 충분하지 않다는 점을 실험적으로 입증했습니다.

핵심 결론

측정 불일치 — 8개 오픈소스 LLM의 가치·성격 프로파일이 Likert 설문(PVQ-40/21, BFI-44/10)과 생성 확률 기반 측정에서 크게 달랐습니다.
일관성 소멸 — 설문 내 항목 간 일관성은 생성 확률 기반 측정에서 사라졌습니다.

방법

두 가지 측정 — 기존 심리 설문을 LLM에 직접 제시한 Likert 응답과, 실제 사용자 쿼리 유형에 대한 가치·성격 관련 응답의 생성 확률을 비교했습니다.
단서 효과 — 설문 항목의 명시적 어휘 단서가 모델이 목표 구성개념을 인식하고 사회적 바람직성에 맞춰 응답하게 만든다는 점이 핵심입니다.
페르소나 실험 — 인구통계학적 페르소나 프롬프트는 설문 응답에만 영향을 주고, 실제 쿼리 응답에는 영향을 주지 않았습니다.

한계·조건

모델 범위 — 8개 오픈소스 LLM에 국한되며, 폐쇄형 모델(GPT-4, Claude 등)에서도 동일한 패턴이 나타날지는 추가 검증이 필요합니다.
재현성 — 코드와 데이터는 공개되지 않았습니다.

편집자 한 줄

LLM 평가 도구로서 인간 심리 설문의 한계를 명확히 짚은 연구입니다. 생성 확률 기반 프로파일링이 대안으로 제시되었지만, 실제 사용자 만족도와의 상관관계는 아직 검증되지 않았네요.

#llm
#psychometrics
#personality
#evaluation
#seoul-national-university

Seoul National University

원문 보기 →

서울대, LLM 성격 평가 설문의 한계 — 실제 사용자 질문과 응답 확률 기반 측정이 더 정확

핵심 결론

방법

한계·조건

Comments