Papers·1주 전
인간-AI 협업에서의 신뢰 결정 — 위임과 채택의 분리 분석

QANTA 연구팀이 24경기·387회 위임·1440회 채택 결정을 분석한 결과, 인간-AI 협업은 단독 성능보다 우수하지만 인간은 최적의 협업 결정을 내리지 못합니다. AI 제안이 정답일 때 3.9% 기회를 놓치고(과소신뢰), 오답일 때 1.7% 과신합니다. 특히 인간의 초기 오답과 AI 제안이 일치할 때 과소신뢰율이 64.5%로 치솟는 확증 편향이 관찰되었습니다. 개선 방안으로 보정된 신뢰도, 증거 기반 설명, 신뢰 조정 메커니즘을 제안합니다.
인간-AI 협업에서 인간이 AI를 신뢰하는 결정을 위임(자율 판단)과 채택(제안 평가)으로 분리해 분석한 연구입니다.
핵심 결론
- 성능 — 인간-AI 협업이 인간 단독 또는 AI 단독보다 높은 정답률을 기록했지만, 인간의 협업 결정은 최적이 아니었습니다.
- 과소신뢰 — AI 제안이 정답인데도 인간이 무시한 비율은 3.9%로, 주로 인간의 초기 오답과 AI 제안이 일치할 때 발생했습니다(과소신뢰율 64.5%).
- 과신 — AI가 오답을 제안했을 때 인간이 이를 수용한 비율은 1.7%였습니다.
방법
- 실험 설계 — 23명의 전문가와 16개 AI 에이전트가 퀴즈 게임에서 경쟁하며, 인간은 AI의 제안을 위임하거나 채택할 수 있었습니다.
- 데이터 — 24경기에서 387회 위임 결정과 1440회 채택 결정을 수집했습니다.
- 분석 — AI의 신뢰도(confidence)와 인간의 초기 답변 일치 여부가 의존 결정에 미치는 영향을 분석했습니다.
한계·조건
- 환경 — 퀴즈 게임이라는 제한된 태스크에서 진행되었으며, 일반화에는 추가 연구가 필요합니다.
- AI 다양성 — 16개 AI 에이전트는 모두 동일한 아키텍처 기반으로, 다양한 AI 유형에 대한 일반화는 한계가 있습니다.
- 코드 — 데이터셋과 분석 코드는 공개되지 않았습니다.
편집자 한 줄
확증 편향이 과소신뢰의 주요 원인이라는 점은 실용적인 개입 포인트를 시사합니다. 보정된 신뢰도만으로는 부족하고, 설명이 함께 제공되어야 할 듯합니다.
- #human-ai-collaboration
- #trust
- #reliance
- #qanta
QANTA