Papers·1개월 전

MedSP1000 — 표준 환자 벤치마크에서 GPT-5.5도 60.4%에 그친 임상 에이전트 평가

MedSP1000은 표준 환자(SP) 사례를 활용한 대화형 임상 에이전트 벤치마크로, 1,638개 사례와 24,602개 전문가 루브릭을 포함합니다. GPT-5.5가 60.4%로 최고 성능을 기록했지만, 정적 벤치마크 성능과 교육 시나리오 성능 간 괴리가 확인되었고, test-time compute 증가도 개선에 도움이 되지 않았습니다. 저자들은 현재 LLM이 실제 임상에 안전하게 통합되기에는 아직 신뢰도가 부족하다고 결론지었습니다.

표준 환자(SP) 기반의 대화형 임상 에이전트 벤치마크 MedSP1000이 공개되었습니다.

핵심 결론

최고 성능 — GPT-5.5가 전문가 루브릭 항목의 60.4%만 달성했고, 의료 특화 모델 최고는 40.0%에 그쳤습니다.
정적 벤치마크와 괴리 — 기존 단일 턴 벤치마크 성능이 교육 시나리오 성능으로 이어지지 않았습니다.
test-time compute — 추론 시간을 늘려도 성능 향상이 관찰되지 않았습니다.

방법

SP 사례 변환 — 1,638개의 동료 검토 SP 교육 사례를 실행 가능한 시나리오로 변환하고, 스크립트·환경 컨텍스트·구조화 루브릭을 포함했습니다.
폐쇄 루프 평가 — 임상 에이전트가 환자 에이전트 및 환경 컨트롤러와 폐쇄 루프로 상호작용하며, 전문가 기준에 따라 전체 진료 과정을 채점합니다.

한계·조건

벤치마크 범위 — SP 시나리오는 교육용으로 설계되어 실제 임상 환경의 모든 변수를 반영하지는 않습니다.
재현성 — 데이터셋과 코드는 공개되었으나, 평가 파이프라인의 재현을 위해서는 추가 설정이 필요할 수 있습니다.

편집자 한 줄

정적 벤치마크의 한계를 잘 드러낸 데이터셋입니다. 특히 의료 특화 모델이 일반 모델보다 낮은 점수는 주목할 만하네요.

#clinical-ai
#benchmark
#llm-evaluation
#medical-llm
#medsp

Cheng Liang

원문 보기 →

MedSP1000 — 표준 환자 벤치마크에서 GPT-5.5도 60.4%에 그친 임상 에이전트 평가

핵심 결론

방법

한계·조건

Comments