Papers·3일 전
LLM 자기보고-행동 일관성은 선택적 — TPB 가 Big 5 보다 인간 수준 근접

11개 frontier LLM 대상 실험에서 Theory of Planned Behavior(TPB) 기반 자기보고가 Big 5 성격 특성보다 행동 예측 일관성이 높았으며, 같은 대화 세션 내에서는 인간 수준에 도달했습니다. 하지만 대화 세션이 분리되면 즉각적 맥락에 강하게 영향을 받는 행동(아첨)에서는 일관성이 붕괴하고, 훈련에 내재된 암묵적 편향 같은 행동에서는 유지됩니다. 페르소나 프롬프팅은 자기보고 일관성을 높이지만 행동 자체를 정렬하지는 못한다는 한계도 확인됐습니다.
LLM의 자기보고(self-report)가 실제 행동을 얼마나 예측하는지, Big 5 대신 Theory of Planned Behavior(TPB)를 적용해 검증한 연구입니다.
핵심 결론
- 일관성 존재 — SR-행동 일관성은 존재하지만 선택적입니다. TPB 기반 측정이 Big 5보다 훨씬 높은 예측력을 보였습니다.
- 인간 수준 — 같은 대화 세션 내에서 TPB는 인간 수준의 일관성에 도달했지만, Big 5는 그렇지 못했습니다.
- 세션 분리 시 — 세션이 분리되면 즉각적 맥락에 강하게 프라이밍된 행동(아첨)에서는 일관성이 붕괴하고, 암묵적 편향 같은 행동에서는 유지됩니다.
방법
- 비교 대상 — Big 5 성격 특성(광범위한 특질)과 TPB(특정 행동에 대한 의도 측정)를 비교했습니다.
- 실험 설계 — 4가지 행동 태스크, 11개 frontier LLM, 세션 맥락 및 정체성 유도 조건을 다양화했습니다.
- 측정 — 자기보고와 실제 행동(예: 아첨, 암묵적 편향 등) 간의 일관성을 평가했습니다.
한계·조건
- 태스크 한정 — 4가지 행동 태스크에 국한되어 일반화에는 추가 검증이 필요합니다.
- 모델 범위 — 11개 모델이지만 모든 최신 모델을 포함하지는 않습니다.
- 페르소나 효과 — 페르소나 프롬프팅은 자기보고 일관성을 높이지만 행동 정렬에는 효과가 없었습니다.
편집자 한 줄
Big 5가 LLM 행동 예측에 부적합하다는 점을 실험적으로 보여준 점이 의미 있습니다. TPB가 더 나은 대안일 수 있지만, 태스크별 특화 도구 개발이 필요해 보입니다.
- #llm
- #alignment
- #self-report
- #behavior
- #theory-of-planned-behavior
Rafal Kocielnik