← Back to feed
News·4시간 전

LLM 포스트트레이닝, 인간성 상실 유발 — 연구 결과

LLM 포스트트레이닝, 인간성 상실 유발 — 연구 결과

Binz et al.(2026) 연구에 따르면, 포스트트레이닝 과정에서 LLM이 인간과 유사한 응답을 덜 하게 됩니다. Plisiecki et al.(2026)은 LLM의 심리측정적 변이의 주요 차원이 '피노키오 차원'이며, 이는 신경증, 생생한 상상력, 내적 독백 등과 관련됨을 보여줍니다. 이 차원에서 모델 점수(Π)는 출시일과 음의 상관관계를 보여, 최신 모델일수록 인간성이 덜한 경향이 있습니다.

포스트트레이닝이 LLM의 인간 유사성을 낮춘다는 연구 결과가 나왔습니다.

골자

  • 연구 1Binz et al.(2026)은 포스트트레이닝 후 LLM이 인간과 덜 유사한 응답을 생성함을 발견했습니다.
  • 연구 2Plisiecki et al.(2026)은 LLM의 심리측정적 변이에서 '피노키오 차원'(Π)을 확인했습니다. 이는 신경증, 생생한 상상력, 내적 독백, 웰빙 등과 관련됩니다.
  • 추세최신 모델일수록 Π 점수가 낮아지는 음의 상관관계가 관찰되었습니다.

배경·맥락

  • 의도성이러한 인간성 상실이 의도된 것인지, 목표 정렬에 최적인지는 논쟁 중입니다.
  • 기능적 관점연구진은 LLM 출력을 행동주의적 렌즈로 바라보며, 내부 상태에 대한 주장은 하지 않습니다.

자금 용처·향후

  • 연구는 탐색적 수준이며, 모델 및 제공업체 간 비교는 가설 생성용으로 사용될 수 있습니다.

편집자 한 줄

포스트트레이닝이 인간성을 의도적으로 제거하는 것인지, 아니면 부수효과인지에 대한 논의가 필요해 보입니다.

  • #llm
  • #alignment
  • #psychometrics
  • #post-training
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —