← Back to feed
Papers·2일 전

MedSP1000 — 표준 환자 벤치마크에서 GPT-5.5도 60.4%에 그친 임상 에이전트 평가

MedSP1000 — 표준 환자 벤치마크에서 GPT-5.5도 60.4%에 그친 임상 에이전트 평가

MedSP1000은 표준 환자(SP) 사례를 활용한 대화형 임상 에이전트 벤치마크로, 1,638개 사례와 24,602개 전문가 루브릭을 포함합니다. GPT-5.5가 60.4%로 최고 성능을 기록했지만, 정적 벤치마크 성능과 교육 시나리오 성능 간 괴리가 확인되었고, test-time compute 증가도 개선에 도움이 되지 않았습니다. 저자들은 현재 LLM이 실제 임상에 안전하게 통합되기에는 아직 신뢰도가 부족하다고 결론지었습니다.

표준 환자(SP) 기반의 대화형 임상 에이전트 벤치마크 MedSP1000이 공개되었습니다.

핵심 결론

  • 최고 성능GPT-5.5가 전문가 루브릭 항목의 60.4%만 달성했고, 의료 특화 모델 최고는 40.0%에 그쳤습니다.
  • 정적 벤치마크와 괴리기존 단일 턴 벤치마크 성능이 교육 시나리오 성능으로 이어지지 않았습니다.
  • test-time compute추론 시간을 늘려도 성능 향상이 관찰되지 않았습니다.

방법

  • SP 사례 변환1,638개의 동료 검토 SP 교육 사례를 실행 가능한 시나리오로 변환하고, 스크립트·환경 컨텍스트·구조화 루브릭을 포함했습니다.
  • 폐쇄 루프 평가임상 에이전트가 환자 에이전트 및 환경 컨트롤러와 폐쇄 루프로 상호작용하며, 전문가 기준에 따라 전체 진료 과정을 채점합니다.

한계·조건

  • 벤치마크 범위SP 시나리오는 교육용으로 설계되어 실제 임상 환경의 모든 변수를 반영하지는 않습니다.
  • 재현성데이터셋과 코드는 공개되었으나, 평가 파이프라인의 재현을 위해서는 추가 설정이 필요할 수 있습니다.

편집자 한 줄

정적 벤치마크의 한계를 잘 드러낸 데이터셋입니다. 특히 의료 특화 모델이 일반 모델보다 낮은 점수는 주목할 만하네요.

  • #clinical-ai
  • #benchmark
  • #llm-evaluation
  • #medical-llm
  • #medsp
Cheng Liang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —