Papers·2주 전
PRECISE: 소수 인간 레이블 + LLM 판단으로 검색 랭킹 평가 오차 21% 감소

Amazon 팀이 Prediction-Powered Inference(PPI)를 확장한 PRECISE를 제안했습니다. 소수의 인간 레이블(30개)과 LLM(Claude 3 Sonnet) 판단을 결합해 Precision@4 추정의 표준 오차를 4.45에서 3.50으로 21% 줄였습니다. 계층적 메트릭(Precision@K)에 적용 가능하도록 출력 공간 계산을 O(2^|C|)에서 O(2^K)로 줄인 점이 핵심입니다. 생산 시스템에서 100개의 인간 레이블과 2시간 전문가 주석으로 세 시스템 변형 중 최적을 식별했고, A/B 테스트에서 일일 매출 +407bps로 순위를 확인했습니다.
Amazon이 소수 인간 레이블과 LLM 판단을 결합해 검색 랭킹 평가의 편향을 보정하는 PRECISE 프레임워크를 공개했습니다.
핵심 결론
- 태스크 — 검색 랭킹 평가 메트릭(Precision@K)의 편향 보정.
- 수치 — ESCI 벤치마크에서 Precision@4 추정 표준 오차를 21% 감소(4.45→3.50).
- 생산 검증 — 100개 인간 레이블로 세 시스템 변형 중 최적 식별, A/B 테스트에서 일일 매출 +407bps 확인.
방법
- PPI 확장 — Prediction-Powered Inference를 계층적 메트릭(Precision@K)에 적용 가능하게 확장.
- 계산 최적화 — 출력 공간 계산을 O(2^|C|)에서 O(2^K)로 줄여 실용화.
- 결합 방식 — 소수 인간 레이블(30개)과 대량 LLM 판단(Claude 3 Sonnet)을 통계적으로 결합해 편향 없는 추정.
한계·조건
- 벤치 범위 — ESCI 벤치마크의 Precision@4에 초점, 다른 메트릭 일반화는 추가 검증 필요.
- 리소스 — 생산 실험에서 2시간의 도메인 전문가 주석이 필요.
- 코드 — 논문 내 코드 공개 여부 불명.
편집자 한 줄
PPI를 실제 검색 평가에 적용한 사례가 드문데, 생산 시스템에서 매출 개선까지 연결한 점이 인상적입니다.
- #ppl
- #ranking
- #evaluation
- #amazon
- #llm
Amazon