Papers·5일 전
UBC, LLM의 분포 샘플링 능력 평가 벤치마크 UnpredictaBench 공개 — KS@100 최고 20%

UBC 연구팀이 LLM이 단순한 다양성 생성을 넘어 실제 분포를 얼마나 잘 샘플링하는지 측정하는 벤치마크 UnpredictaBench를 공개했습니다. 448개 문제(통계 분포, 확률적 프로그램, 자연어 시나리오)와 KS@N 메트릭을 도입했으며, KS@100 기준 최고 성능이 20% 미만으로 상당한 개선 여지가 있습니다. 추론 능력을 추가해도 점수 향상이 제한적이라, LLM을 시뮬레이션 대리자로 쓰려면 이 문제가 우선 해결되어야 합니다.
UBC 연구팀이 LLM이 단순한 다양성 생성을 넘어 실제 분포를 얼마나 잘 샘플링하는지 측정하는 벤치마크 UnpredictaBench를 공개했습니다.
핵심 결론
- 벤치마크 — 448개 문제로 구성, 통계 분포·확률적 프로그램·자연어 시나리오 포함.
- 메트릭 — KS@N: Kolmogorov-Smirnov 검정 기반으로 모델 샘플과 실제 분포 간 일치도 측정.
- 성능 — KS@100 기준 최고 20% 미만, 40%를 넘는 모델 없음 — 상당한 개선 여지.
방법
- 기존 출력 다양성 평가와 달리, 타겟 분포에 대한 보정(calibration)을 요구하는 점이 핵심입니다.
- 문제는 단순 분포(정규, 이항 등)부터 복잡한 확률적 프로그램, 그리고 "주사위를 10번 던졌을 때 결과" 같은 자연어 시나리오까지 다양합니다.
- KS@N은 모델이 생성한 N개 샘플과 실제 분포에서 추출한 N개 샘플을 KS 검정으로 비교해, 귀무가설을 기각하지 못하는 비율을 측정합니다.
한계·조건
- 추론(reasoning)을 추가하면 점수가 소폭 오르지만, 근본적인 해결책은 아직 없습니다.
- 벤치마크는 단순 분포 샘플링에 초점을 맞춰, 복잡한 시스템 시뮬레이션의 첫 단계로 설계되었습니다.
- 코드와 데이터는 공개 예정이며, 현재는 논문과 Hugging Face 페이지에서 확인 가능합니다.
편집자 한 줄
분포 샘플링 능력은 LLM을 경제 시뮬레이션이나 에이전트로 활용할 때 핵심인데, 아직 갈 길이 먼 셈이네요.
- #llm
- #evaluation
- #distribution-sampling
- #ubc
Vision and NLP Group at University of British Columbia