Ships·6개월 전

Google DeepMind, FACTS Grounding 벤치마크 공개 — LLM 사실성 평가

Google DeepMind가 대규모 언어 모델의 사실성을 평가하는 새로운 벤치마크 FACTS Grounding을 공개했다. 1,719개의 프롬프트와 34개 카테고리로 구성되며, 모델이 제공된 문서에 기반해 정확한 답변을 생성하는 능력을 측정한다. 현재 Gemini 1.5 Pro가 83.6%로 최고 점수를 기록했으며, GPT-4o는 79.1%를 기록했다. 벤치마크는 공개되어 연구자들이 활용할 수 있다.

#google-deepmind
#facts-grounding
#benchmark
#factuality
#llm

Google DeepMind

원문 보기 →

Google DeepMind, FACTS Grounding 벤치마크 공개 — LLM 사실성 평가

Comments