← Back to feed
Papers·4일 전

τ-Rec: 에이전트 추천 시스템 벤치마크 — GPT-5.4도 pass^4 38%로 신뢰성 급락

τ-Rec: 에이전트 추천 시스템 벤치마크 — GPT-5.4도 pass^4 38%로 신뢰성 급락

τ-Rec은 에이전트형 대화형 추천 시스템을 위한 벤치마크로, LLM-as-a-judge의 주관성을 배제하고 검증 가능한 보상과 reveal-tagged elicitation 메커니즘을 도입했습니다. 5개 모델군 9개 설정을 평가한 결과, 최고 모델(GPT-5.4)도 pass^1에서 약 57%, pass^4에서 약 38%에 그쳐 신뢰성 한계를 드러냈습니다. 코드와 데이터는 공개되었습니다.

τ-Rec은 에이전트 추천 시스템의 일관된 추론 능력을 검증하기 위해 설계된 벤치마크로, 기존 LLM-as-a-judge 평가의 한계를 극복합니다.

핵심 결론

  • 벤치마크τ-Rec은 검증 가능한 보상과 reveal-tagged elicitation(RTE) 메커니즘으로 주관적 평가를 대체합니다.
  • 성능최고 모델(GPT-5.4)도 pass^1 57%, pass^4 38%로 신뢰성 급락을 보여줍니다.
  • 모델GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B, GPT-5 mini 등 5개 패밀리 9개 설정 평가.

방법

  • RTE태스크 제약 조건이 대화 중에 드러나는 시점을 제어하는 reveal-tagged elicitation 메커니즘을 도입했습니다.
  • pass^k일관된 추론을 측정하기 위해 pass^k 신뢰도 지표를 사용합니다.
  • 구조화된 카탈로그 조건자(Structured catalog predicates)를 기반으로 에이전트를 테스트합니다.

한계·조건

  • 범위벤치마크는 추천 시스템에 특화되어 있으며, 일반 대화 에이전트로의 일반화는 검증되지 않았습니다.
  • 비용평가에 여러 모델을 사용했지만, 각 모델의 추론 비용이나 지연 시간은 보고되지 않았습니다.
  • 코드모든 코드와 데이터는 GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

pass^4에서 38%라는 수치는 실제 서비스 배포 시 신뢰성 확보가 얼마나 어려운지 잘 보여줍니다.

  • #recommender-systems
  • #benchmark
  • #agentic
  • #reliability
Bharath Sivaram Narasimhan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —