Papers·1주 전
챗 템플릿이 LLM 보정에 미치는 영향 — 사용자 응답으로 위장해 과신 26% 감소

Instruction tuning 이 LLM 보정을 근본적으로 해치지만, chat template 이 '소유권 편향(ownership bias)'을 통해 문제를 더 악화시킨다는 분석입니다. 모델은 자신이 생성한 답변에 동일한 내용의 사용자 답변보다 최대 26% 높은 신뢰도를 부여합니다. 이 편향을 활용해 추론 시 모델의 답변을 사용자 입력으로 가장하면 보정이 최대 26% 개선되며, 재학습이 필요 없다는 점이 실용적입니다. 6개 최신 open-weight 모델, 3개 벤치마크에서 일관된 결과를 확인했습니다.
Instruction tuning 이 LLM 보정을 해친다는 건 알려져 있었지만, chat template 의 역할은 명확하지 않았습니다. 이 연구는 그 메커니즘을 분리해 분석합니다.
핵심 결론
- 소유권 편향 — 모델이 자신의 답변에 동일한 사용자 답변보다 최대 26% 높은 신뢰도를 부여합니다.
- 개선 폭 — 추론 시 답변을 사용자 입력으로 위장해 보정을 최대 26% 개선, base 모델과의 격차를 좁힙니다.
방법
- Instruction tuning 과 chat template 의 효과를 분리하기 위해, base 모델에 instruction tuning 만 적용한 버전과 chat template 까지 적용한 버전을 비교했습니다.
- 소유권 편향 측정 — 모델이 생성한 답변과 동일한 내용의 사용자 답변에 대한 신뢰도를 비교해 편향을 정량화했습니다.
- 추론 전략 — 모델의 답변을 "User: [답변]" 형식으로 감싸 confidence 를 elicitation 하는 간단한 방법입니다.
한계·조건
- 모델 범위 — 6개 open-weight 모델(Llama 2, Mistral 등)에 국한되며, API-only 모델은 미포함입니다.
- 벤치마크 — MMLU, TruthfulQA, CoQA 3개 벤치마크에서 검증되었습니다.
- 재현성 — 코드 공개 예정이며, 실험은 4x A100 환경에서 수행되었습니다.
편집자 한 줄
소유권 편향이라는 개념 자체는 직관적이지만, 이를 추론 시 간단한 프롬프트 변형으로 완화할 수 있다는 점이 실용적으로 느껴집니다.
- #calibration
- #instruction-tuning
- #chat-template
- #llm
Mario Sanz-Guerrero