News·1개월 전

LLM 포스트트레이닝, 인간성 상실 유발 — 연구 결과

Binz et al.(2026) 연구에 따르면, 포스트트레이닝 과정에서 LLM이 인간과 유사한 응답을 덜 하게 됩니다. Plisiecki et al.(2026)은 LLM의 심리측정적 변이의 주요 차원이 '피노키오 차원'이며, 이는 신경증, 생생한 상상력, 내적 독백 등과 관련됨을 보여줍니다. 이 차원에서 모델 점수(Π)는 출시일과 음의 상관관계를 보여, 최신 모델일수록 인간성이 덜한 경향이 있습니다.

포스트트레이닝이 LLM의 인간 유사성을 낮춘다는 연구 결과가 나왔습니다.

골자

연구 1 — Binz et al.(2026)은 포스트트레이닝 후 LLM이 인간과 덜 유사한 응답을 생성함을 발견했습니다.
연구 2 — Plisiecki et al.(2026)은 LLM의 심리측정적 변이에서 '피노키오 차원'(Π)을 확인했습니다. 이는 신경증, 생생한 상상력, 내적 독백, 웰빙 등과 관련됩니다.
추세 — 최신 모델일수록 Π 점수가 낮아지는 음의 상관관계가 관찰되었습니다.

배경·맥락

의도성 — 이러한 인간성 상실이 의도된 것인지, 목표 정렬에 최적인지는 논쟁 중입니다.
기능적 관점 — 연구진은 LLM 출력을 행동주의적 렌즈로 바라보며, 내부 상태에 대한 주장은 하지 않습니다.

자금 용처·향후

연구는 탐색적 수준이며, 모델 및 제공업체 간 비교는 가설 생성용으로 사용될 수 있습니다.

편집자 한 줄

포스트트레이닝이 인간성을 의도적으로 제거하는 것인지, 아니면 부수효과인지에 대한 논의가 필요해 보입니다.

#llm
#alignment
#psychometrics
#post-training

LessWrong

원문 보기 →

LLM 포스트트레이닝, 인간성 상실 유발 — 연구 결과

골자

배경·맥락

자금 용처·향후

Comments