Ships·1년 전

Google DeepMind, FACTS 벤치마크 공개 — LLM 사실성 평가 및 리더보드

Google DeepMind가 LLM의 사실성과 환각(hallucination)을 평가하는 새로운 벤치마크 FACTS(Factual Assessment of Content Through Source)를 공개하고 온라인 리더보드를 운영한다. FACTS는 모델이 제공된 출처 자료에 얼마나 충실하게 응답하는지 측정하며, 기존 벤치마크가 간과한 출처 기반 정확성을 중점 평가한다. 리더보드는 현재 Gemini 1.5 Pro, GPT-4o, Claude 3.5 Sonnet 등 주요 모델의 점수를 제공하며, 연구자와 개발자는 자신의 모델을 제출해 평가받을 수 있다.

#google-deepmind
#facts-benchmark
#hallucination
#llm-evaluation
#leaderboard

Google DeepMind

원문 보기 →

Google DeepMind, FACTS 벤치마크 공개 — LLM 사실성 평가 및 리더보드

Comments