← Back to feed
Papers·2주 전

PRECISE: 소수 인간 레이블 + LLM 판단으로 검색 랭킹 평가 오차 21% 감소

PRECISE: 소수 인간 레이블 + LLM 판단으로 검색 랭킹 평가 오차 21% 감소

Amazon 팀이 Prediction-Powered Inference(PPI)를 확장한 PRECISE를 제안했습니다. 소수의 인간 레이블(30개)과 LLM(Claude 3 Sonnet) 판단을 결합해 Precision@4 추정의 표준 오차를 4.45에서 3.50으로 21% 줄였습니다. 계층적 메트릭(Precision@K)에 적용 가능하도록 출력 공간 계산을 O(2^|C|)에서 O(2^K)로 줄인 점이 핵심입니다. 생산 시스템에서 100개의 인간 레이블과 2시간 전문가 주석으로 세 시스템 변형 중 최적을 식별했고, A/B 테스트에서 일일 매출 +407bps로 순위를 확인했습니다.

Amazon이 소수 인간 레이블과 LLM 판단을 결합해 검색 랭킹 평가의 편향을 보정하는 PRECISE 프레임워크를 공개했습니다.

핵심 결론

  • 태스크검색 랭킹 평가 메트릭(Precision@K)의 편향 보정.
  • 수치ESCI 벤치마크에서 Precision@4 추정 표준 오차를 21% 감소(4.45→3.50).
  • 생산 검증100개 인간 레이블로 세 시스템 변형 중 최적 식별, A/B 테스트에서 일일 매출 +407bps 확인.

방법

  • PPI 확장Prediction-Powered Inference를 계층적 메트릭(Precision@K)에 적용 가능하게 확장.
  • 계산 최적화출력 공간 계산을 O(2^|C|)에서 O(2^K)로 줄여 실용화.
  • 결합 방식소수 인간 레이블(30개)과 대량 LLM 판단(Claude 3 Sonnet)을 통계적으로 결합해 편향 없는 추정.

한계·조건

  • 벤치 범위ESCI 벤치마크의 Precision@4에 초점, 다른 메트릭 일반화는 추가 검증 필요.
  • 리소스생산 실험에서 2시간의 도메인 전문가 주석이 필요.
  • 코드논문 내 코드 공개 여부 불명.

편집자 한 줄

PPI를 실제 검색 평가에 적용한 사례가 드문데, 생산 시스템에서 매출 개선까지 연결한 점이 인상적입니다.

  • #ppl
  • #ranking
  • #evaluation
  • #amazon
  • #llm
Amazon
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —