Papers·2일 전
LLM 위험 의사결정, 겉은 인간 같아도 속은 다르다 — St. Petersburg 게임 28개 모델 분석

Chensong Huang 연구진이 28개 LLM을 St. Petersburg 게임으로 평가한 결과, 대부분이 인간처럼 유한한 입찰액을 제시했지만 통제 실험에서는 조건부·계산적 합리성으로 전환되는 등 메커니즘 수준의 차이가 드러났습니다. 인간 신호 프롬프트나 instruction tuning이 표면적 행동을 개선하더라도 근본적인 의사결정 메커니즘은 바뀌지 않았습니다. 이는 고위험 평가에서 결과 유사성만으로 정렬을 판단해선 안 된다는 점을 시사합니다.
LLM이 위험 의사결정에서 인간처럼 행동해도 그 메커니즘은 완전히 다를 수 있다는 실험 결과가 나왔습니다.
핵심 결론
- 표면적 유사성 — St. Petersburg 게임에서 대부분의 LLM이 인간처럼 낮은 유한 입찰액을 제시, 인간과 유사한 위험 태도를 보이는 듯했습니다.
- 메커니즘 차이 — 통제 변형(절단, 반복, 자산 규모, 직업 정체성) 실험에서 모델들은 조건부·계산적 합리성으로 전환되어 인간과 다른 패턴을 보였습니다.
- 프롬프트 효과 — 인간 관점 프롬프트와 instruction tuning은 입찰액을 낮추고 일부 병리를 줄였지만, 메커니즘 수준의 응답 패턴은 거의 바뀌지 않았습니다.
방법
- 실험 설계 — 28개 LLM(베이스 모델과 instruction-tuned 버전)을 대상으로 St. Petersburg 게임 원본과 4가지 통제 변형, 인간 관점 프롬프트를 포함한 구조화된 프롬프트 모음을 사용했습니다.
- 통제 변형 — 절단(truncation), 반복 게임, 자산 규모(numeric endowment), 직업 정체성(occupational identity)을 변경하여 모델의 반응을 분석했습니다.
- 비교 분석 — 베이스 모델과 instruction-tuned 모델 쌍을 비교하여 정렬 미세조정의 영향을 평가했습니다.
한계·조건
- 게임 특수성 — St. Petersburg 게임은 고전적 역설로, 인간의 행동이 잘 알려져 있지만 일반적인 위험 의사결정을 대표하지는 않을 수 있습니다.
- 모델 범위 — 28개 모델은 주로 공개 모델(LLaMA, Mistral 등)이며, 최신 폐쇄 모델(GPT-4, Claude 3)은 포함되지 않았습니다.
- 재현성 — 코드와 데이터는 공개되지 않았으며, 프롬프트 템플릿은 논문에 상세히 기술되어 있습니다.
편집자 한 줄
결과 유사성만으로 정렬을 단정하면 안 된다는 점을 명확히 보여주는 연구입니다. 고위험 도메인(금융, 의료)에 LLM을 적용할 때 참고할 만합니다.
- #llm
- #risk-decision-making
- #alignment
- #st-petersburg-game
- #mechanism
Chensong Huang