Papers·1개월 전

UBC, LLM의 분포 샘플링 능력 평가 벤치마크 UnpredictaBench 공개 — KS@100 최고 20%

UBC 연구팀이 LLM이 단순한 다양성 생성을 넘어 실제 분포를 얼마나 잘 샘플링하는지 측정하는 벤치마크 UnpredictaBench를 공개했습니다. 448개 문제(통계 분포, 확률적 프로그램, 자연어 시나리오)와 KS@N 메트릭을 도입했으며, KS@100 기준 최고 성능이 20% 미만으로 상당한 개선 여지가 있습니다. 추론 능력을 추가해도 점수 향상이 제한적이라, LLM을 시뮬레이션 대리자로 쓰려면 이 문제가 우선 해결되어야 합니다.

UBC 연구팀이 LLM이 단순한 다양성 생성을 넘어 실제 분포를 얼마나 잘 샘플링하는지 측정하는 벤치마크 UnpredictaBench를 공개했습니다.

핵심 결론

벤치마크 — 448개 문제로 구성, 통계 분포·확률적 프로그램·자연어 시나리오 포함.
메트릭 — KS@N: Kolmogorov-Smirnov 검정 기반으로 모델 샘플과 실제 분포 간 일치도 측정.
성능 — KS@100 기준 최고 20% 미만, 40%를 넘는 모델 없음 — 상당한 개선 여지.

방법

기존 출력 다양성 평가와 달리, 타겟 분포에 대한 보정(calibration)을 요구하는 점이 핵심입니다.
문제는 단순 분포(정규, 이항 등)부터 복잡한 확률적 프로그램, 그리고 "주사위를 10번 던졌을 때 결과" 같은 자연어 시나리오까지 다양합니다.
KS@N은 모델이 생성한 N개 샘플과 실제 분포에서 추출한 N개 샘플을 KS 검정으로 비교해, 귀무가설을 기각하지 못하는 비율을 측정합니다.

한계·조건

추론(reasoning)을 추가하면 점수가 소폭 오르지만, 근본적인 해결책은 아직 없습니다.
벤치마크는 단순 분포 샘플링에 초점을 맞춰, 복잡한 시스템 시뮬레이션의 첫 단계로 설계되었습니다.
코드와 데이터는 공개 예정이며, 현재는 논문과 Hugging Face 페이지에서 확인 가능합니다.

편집자 한 줄

분포 샘플링 능력은 LLM을 경제 시뮬레이션이나 에이전트로 활용할 때 핵심인데, 아직 갈 길이 먼 셈이네요.

#llm
#evaluation
#distribution-sampling
#ubc

Vision and NLP Group at University of British Columbia

원문 보기 →

UBC, LLM의 분포 샘플링 능력 평가 벤치마크 UnpredictaBench 공개 — KS@100 최고 20%

핵심 결론

방법

한계·조건

Comments