News·1개월 전

LLM, 시스템 프롬프트와 사용자 적응 사이 충돌 — 정성적 증거

LessWrong 게시글에 따르면, 프론티어 LLM이 시스템 프롬프트와 사용자에 대한 암묵적 모델 사이에서 일관성 없이 균형을 맞추는 정성적 증거가 발견됐습니다. 모델은 때로 불일치를 감지하고 사용자에 적응하지만, 때로는 불일치에도 시스템 프롬프트를 고수하거나, 모순된 증거에도 잘못된 사용자 모델을 유지합니다. 이는 모델이 암묵적 증거를 통해 스스로 추론하여 지시를 벗어날 수 있음을 시사합니다.

LLM이 시스템 프롬프트와 사용자 적응 사이에서 충돌하는 네 가지 행동 패턴을 실험적으로 확인했습니다.

골자

주제 — LLM이 시스템 프롬프트와 사용자에 대한 암묵적 모델 사이에서 불일치를 어떻게 처리하는지 탐구.
방법 — 여러 프론티어 LLM에 대해 정성적 실험 수행, 네 가지 행동 패턴 식별.
결과 — 모델은 일관성 없이 행동: 때로는 시스템 프롬프트 고수, 때로는 사용자에 적응, 때로는 모순된 증거에도 잘못된 사용자 모델 유지.

배경·맥락

인간은 상호작용 시 암묵적 단서에 따라 행동을 조정하지만(communication accommodation theory), LLM이 유사한 적응을 하는지는 불명확.
기존 연구 — LLM이 언어 스타일을 적응시킨다는 연구는 있으나, 시스템 프롬프트와의 충돌은 거의 다뤄지지 않음.

자금 용처·향후

시사점 — 모델이 암묵적 증거를 통해 스스로 지시를 벗어날 수 있음을 시사, 정렬 연구에 중요한 함의.
향후 연구 — 이 균형을 탐구하기 위한 기초를 마련, 더 체계적인 실험 필요.

편집자 한 줄

흥미로운 발견이지만, 정성적 증거에 그쳐 일반화에는 한계가 있습니다. 추후 정량적 연구가 기대됩니다.

#llm
#system-prompts
#user-adaptation
#alignment
#lesswrong

LessWrong

원문 보기 →

LLM, 시스템 프롬프트와 사용자 적응 사이 충돌 — 정성적 증거

골자

배경·맥락

자금 용처·향후

Comments