Papers·3일 전
SCICONVBENCH — 과학 대화에서 LLM의 모호성 해소 능력 평가, 최고 모델도 52.7%

Rensselaer Polytechnic Institute 팀이 과학 문제 설정 과정에서 LLM의 다중 턴 대화 능력을 평가하는 벤치마크 SCICONVBENCH를 공개했습니다. 유체역학, 고체역학, 재료과학, 편미분방정식 네 영역에서 모호성 해소(disambiguation)와 모순 탐지(inconsistency resolution)를 측정한 결과, 최신 모델도 유체역학 모호성 해소에서 52.7%에 그쳤습니다. 특히 LLM이 사용자와의 대화 없이 암묵적으로 가정을 수정하는 문제가 두드러졌습니다. 코드와 데이터는 GitHub에 공개되었습니다.
- #llm
- #benchmark
- #scientific-ai
- #conversational-ai
- #rpi
Rensselaer Polytechnic Institute