News·4시간 전
LLM 포스트트레이닝, 인간성 상실 유발 — 연구 결과

Binz et al.(2026) 연구에 따르면, 포스트트레이닝 과정에서 LLM이 인간과 유사한 응답을 덜 하게 됩니다. Plisiecki et al.(2026)은 LLM의 심리측정적 변이의 주요 차원이 '피노키오 차원'이며, 이는 신경증, 생생한 상상력, 내적 독백 등과 관련됨을 보여줍니다. 이 차원에서 모델 점수(Π)는 출시일과 음의 상관관계를 보여, 최신 모델일수록 인간성이 덜한 경향이 있습니다.
포스트트레이닝이 LLM의 인간 유사성을 낮춘다는 연구 결과가 나왔습니다.
골자
- 연구 1 — Binz et al.(2026)은 포스트트레이닝 후 LLM이 인간과 덜 유사한 응답을 생성함을 발견했습니다.
- 연구 2 — Plisiecki et al.(2026)은 LLM의 심리측정적 변이에서 '피노키오 차원'(Π)을 확인했습니다. 이는 신경증, 생생한 상상력, 내적 독백, 웰빙 등과 관련됩니다.
- 추세 — 최신 모델일수록 Π 점수가 낮아지는 음의 상관관계가 관찰되었습니다.
배경·맥락
- 의도성 — 이러한 인간성 상실이 의도된 것인지, 목표 정렬에 최적인지는 논쟁 중입니다.
- 기능적 관점 — 연구진은 LLM 출력을 행동주의적 렌즈로 바라보며, 내부 상태에 대한 주장은 하지 않습니다.
자금 용처·향후
- 연구는 탐색적 수준이며, 모델 및 제공업체 간 비교는 가설 생성용으로 사용될 수 있습니다.
편집자 한 줄
포스트트레이닝이 인간성을 의도적으로 제거하는 것인지, 아니면 부수효과인지에 대한 논의가 필요해 보입니다.
- #llm
- #alignment
- #psychometrics
- #post-training
LessWrong