Papers·어제
PhysicianBench — EHR 환경에서 의사 업무 평가, 최고 모델도 46% 성공률

Stanford 팀이 실제 임상 환경을 반영한 EHR 기반 장기 과제 벤치마크 PhysicianBench를 공개했습니다. 100개 과제는 21개 전문과목에 걸쳐 평균 27회의 tool call이 필요하며, 최고 모델(GPT-4 등)도 pass@1 46%에 그쳤고 오픈소스 모델은 최대 19%로 큰 격차를 보였습니다. 과제는 실제 진료 사례를 기반으로 구성되었고, 실행 검증이 가능한 체크포인트(670개)로 평가됩니다. 다만 100개 과제라는 규모와 특정 EHR API에 의존한다는 점에서 일반화에는 한계가 있습니다.
- #benchmark
- #clinical
- #ehr
- #stanford
- #llm-agent
Stanford University