Papers·3일 전
DeepMind ProEval — 사전 학습된 GP로 모델 평가 샘플 8~65배 절약

DeepMind 팀이 제안한 ProEval은 Gaussian Process를 사전 학습해 성능 점수 함수의 surrogate로 활용, Bayesian quadrature로 성능을 추정하고 superlevel set sampling으로 실패 사례를 찾는 평가 프레임워크입니다. 추론·안전 정렬·분류 벤치마크에서 ground truth 대비 1% 오차 내 추정에 필요한 샘플 수를 8~65배 줄였으며, 제한된 예산 내에서 더 다양한 실패 케이스를 발견했습니다. 단, GP 사전 학습에 별도 비용이 들고, task 도메인이 크게 다르면 전이 효율이 떨어질 수 있습니다.
- #evaluation
- #gaussian-process
- #deepmind
- #bayesian-quadrature
- #transfer-learning
Deepmind