Papers·1개월 전

SCICONVBENCH — 과학 대화에서 LLM의 모호성 해소 능력 평가, 최고 모델도 52.7%

Rensselaer Polytechnic Institute 팀이 과학 문제 설정 과정에서 LLM의 다중 턴 대화 능력을 평가하는 벤치마크 SCICONVBENCH를 공개했습니다. 유체역학, 고체역학, 재료과학, 편미분방정식 네 영역에서 모호성 해소(disambiguation)와 모순 탐지(inconsistency resolution)를 측정한 결과, 최신 모델도 유체역학 모호성 해소에서 52.7%에 그쳤습니다. 특히 LLM이 사용자와의 대화 없이 암묵적으로 가정을 수정하는 문제가 두드러졌습니다. 코드와 데이터는 GitHub에 공개되었습니다.

#llm
#benchmark
#scientific-ai
#conversational-ai
#rpi

Rensselaer Polytechnic Institute

원문 보기 →

SCICONVBENCH — 과학 대화에서 LLM의 모호성 해소 능력 평가, 최고 모델도 52.7%

Comments