Papers·2일 전
MedSP1000 — 표준 환자 벤치마크에서 GPT-5.5도 60.4%에 그친 임상 에이전트 평가

MedSP1000은 표준 환자(SP) 사례를 활용한 대화형 임상 에이전트 벤치마크로, 1,638개 사례와 24,602개 전문가 루브릭을 포함합니다. GPT-5.5가 60.4%로 최고 성능을 기록했지만, 정적 벤치마크 성능과 교육 시나리오 성능 간 괴리가 확인되었고, test-time compute 증가도 개선에 도움이 되지 않았습니다. 저자들은 현재 LLM이 실제 임상에 안전하게 통합되기에는 아직 신뢰도가 부족하다고 결론지었습니다.
표준 환자(SP) 기반의 대화형 임상 에이전트 벤치마크 MedSP1000이 공개되었습니다.
핵심 결론
- 최고 성능 — GPT-5.5가 전문가 루브릭 항목의 60.4%만 달성했고, 의료 특화 모델 최고는 40.0%에 그쳤습니다.
- 정적 벤치마크와 괴리 — 기존 단일 턴 벤치마크 성능이 교육 시나리오 성능으로 이어지지 않았습니다.
- test-time compute — 추론 시간을 늘려도 성능 향상이 관찰되지 않았습니다.
방법
- SP 사례 변환 — 1,638개의 동료 검토 SP 교육 사례를 실행 가능한 시나리오로 변환하고, 스크립트·환경 컨텍스트·구조화 루브릭을 포함했습니다.
- 폐쇄 루프 평가 — 임상 에이전트가 환자 에이전트 및 환경 컨트롤러와 폐쇄 루프로 상호작용하며, 전문가 기준에 따라 전체 진료 과정을 채점합니다.
한계·조건
- 벤치마크 범위 — SP 시나리오는 교육용으로 설계되어 실제 임상 환경의 모든 변수를 반영하지는 않습니다.
- 재현성 — 데이터셋과 코드는 공개되었으나, 평가 파이프라인의 재현을 위해서는 추가 설정이 필요할 수 있습니다.
편집자 한 줄
정적 벤치마크의 한계를 잘 드러낸 데이터셋입니다. 특히 의료 특화 모델이 일반 모델보다 낮은 점수는 주목할 만하네요.
- #clinical-ai
- #benchmark
- #llm-evaluation
- #medical-llm
- #medsp
Cheng Liang