Papers·1주 전
RAG 시스템, 출처에 따라 답변이 달라지는 문제 — CMU, TransplantQA·HERO-QA 로 진단

CMU 팀이 다중 출처 RAG 시스템에서 같은 질문에 출처에 따라 다른 답변이 나오는 문제를 체계적으로 진단하는 프레임워크를 제시했습니다. TransplantQA 벤치마크와 HERO-QA 검색 전략, 5-레이블 분류 평가자를 공개했으며, 검색 성능이 좋을수록 출처 간 불일치가 더 많이 드러난 점이 특이합니다. 도메인 불문하고 법률·교육 RAG에도 적용 가능합니다.
CMU 연구진이 다중 출처 RAG 시스템의 '출처 의존성' 문제를 진단하는 평가 프레임워크를 공개했습니다.
핵심 결론
- 문제 — 같은 질문에 대해 RAG가 어떤 출처를 검색하느냐에 따라 다른 답변을 내놓는 실패 모드를 기존 단일 정답 평가 패러다임으로는 잡을 수 없습니다.
- 제안 — 평가 단위를 '답변 정확도'에서 '출처 간 관계'로 전환하는 source-dependence 평가 축을 도입했습니다.
- 발견 — 검색 성능이 좋을수록 출처 간 불일치가 더 많이 드러났으며, 기존 추정보다 불일치 빈도가 높았습니다.
방법
- TransplantQA — 실제 환자 질문을 바탕으로 여러 기관 핸드북을 출처로 삼아 답변을 생성한 벤치마크입니다.
- HERO-QA — 계층적 검색 전략으로 각 답변의 출처를 추적하고 평가합니다.
- 평가자 — 구조화된 출력 판별기가 출처 간 관계를 5-레이블 분류 체계로 점수화합니다.
한계·조건
- 도메인 — 이식 환자 교육에 초점을 맞췄지만, 법률·교육 RAG로도 전이 가능하다고 합니다.
- 재현성 — TransplantQA, HERO-QA, 평가자 모두 공개되었습니다.
편집자 한 줄
RAG 평가의 새로운 축을 제시한 점이 흥미롭습니다. 검색이 좋을수록 불일치가 더 드러난다는 건, 단순히 검색 성능만 높이면 안 된다는 뜻이기도 하네요.
- #rag
- #evaluation
- #cmu
- #source-dependence
- #nlp
Carnegie Mellon University