Papers·2주 전
의료 연구 에이전트 스킬 감사 프레임워크 MedSkillAudit — 전문가 검토 대비 ICC 0.449

의료 연구용 에이전트 스킬의 배포 전 감사 프레임워크 MedSkillAudit을 제안했습니다. 75개 스킬을 5개 카테고리로 나눠 두 명의 전문가 평가와 비교한 결과, 시스템-전문가 일치도 ICC(2,1)가 0.449로 인간 간 일치도(0.300)를 상회했습니다. 프로토콜 설계 카테고리에서 가장 높은 일치(ICC=0.551)를 보였으나, 학술 글쓰기에서는 음의 ICC(-0.567)를 기록해 루브릭과 전문가 판단 간 불일치가 드러났습니다. 도메인 특화 사전 감사가 일반 품질 점검을 보완할 수 있음을 시사합니다.
- #medical-ai
- #agent-skills
- #audit
- #safety
- #research
AIPOCH