Papers·1주 전
ClinHallu: 의료 MLLM 추론 단계별 환각 진단 벤치마크 — 7,031개 인스턴스로 시각·지식·추론 오류 구분

알리바바 팀이 의료 MLLM의 환각 원인을 추론 단계(시각 인식, 지식 회상, 추론 통합)별로 진단하는 벤치마크 ClinHallu를 공개했습니다. 7,031개 인스턴스에 구조화된 추론 트레이스를 부착해 각 단계의 오류가 최종 답변에 미치는 영향을 측정했으며, trace-supervised fine-tuning으로 단계별 환각을 줄일 수 있음을 보였습니다. 단, 의료 영역 특화 벤치마크라 일반 도메인으로의 일반화는 추가 검증이 필요합니다.
알리바바 팀이 의료 MLLM의 환각 원인을 추론 단계별로 진단하는 벤치마크 ClinHallu를 공개했습니다.
핵심 결론
- 벤치 — 7,031개 인스턴스로 구성, 각 인스턴스에 시각 인식·지식 회상·추론 통합의 구조화된 추론 트레이스 부착.
- 개선 — trace-supervised fine-tuning으로 단계별 환각을 유의미하게 줄일 수 있음을 확인.
방법
- 단계 분해 — 환각 원인을 Visual Recognition, Knowledge Recall, Reasoning Integration 세 단계로 분해해 각각의 오류를 독립적으로 진단.
- 개입 실험 — 단계별 replacement intervention으로 특정 단계를 교정했을 때 최종 답변 정확도가 어떻게 변하는지 측정.
한계·조건
- 도메인 — 의료 영역 특화 벤치마크로, 일반 도메인 MLLM의 환각 진단에는 추가 검증이 필요.
- 코드 — GitHub에 공개되어 있으며, 데이터와 코드 모두 접근 가능.
편집자 한 줄
추론 단계별 진단이라는 접근은 기존 단순 정답 비교보다 진단 가능성이 넓어 흥미롭습니다. 다만 수동 주석 비용이 클 것으로 보여, 자동화된 trace 생성 방법이 나오면 더 확장성이 생길 듯합니다.
- #hallucination
- #medical
- #mllm
- #benchmark
- #alibaba
Sicheng Yang