Papers·4일 전
τ-Rec: 에이전트 추천 시스템 벤치마크 — GPT-5.4도 pass^4 38%로 신뢰성 급락

τ-Rec은 에이전트형 대화형 추천 시스템을 위한 벤치마크로, LLM-as-a-judge의 주관성을 배제하고 검증 가능한 보상과 reveal-tagged elicitation 메커니즘을 도입했습니다. 5개 모델군 9개 설정을 평가한 결과, 최고 모델(GPT-5.4)도 pass^1에서 약 57%, pass^4에서 약 38%에 그쳐 신뢰성 한계를 드러냈습니다. 코드와 데이터는 공개되었습니다.
τ-Rec은 에이전트 추천 시스템의 일관된 추론 능력을 검증하기 위해 설계된 벤치마크로, 기존 LLM-as-a-judge 평가의 한계를 극복합니다.
핵심 결론
- 벤치마크 — τ-Rec은 검증 가능한 보상과 reveal-tagged elicitation(RTE) 메커니즘으로 주관적 평가를 대체합니다.
- 성능 — 최고 모델(GPT-5.4)도 pass^1 57%, pass^4 38%로 신뢰성 급락을 보여줍니다.
- 모델 — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B, GPT-5 mini 등 5개 패밀리 9개 설정 평가.
방법
- RTE — 태스크 제약 조건이 대화 중에 드러나는 시점을 제어하는 reveal-tagged elicitation 메커니즘을 도입했습니다.
- pass^k — 일관된 추론을 측정하기 위해 pass^k 신뢰도 지표를 사용합니다.
- 구조화된 카탈로그 조건자(Structured catalog predicates)를 기반으로 에이전트를 테스트합니다.
한계·조건
- 범위 — 벤치마크는 추천 시스템에 특화되어 있으며, 일반 대화 에이전트로의 일반화는 검증되지 않았습니다.
- 비용 — 평가에 여러 모델을 사용했지만, 각 모델의 추론 비용이나 지연 시간은 보고되지 않았습니다.
- 코드 — 모든 코드와 데이터는 GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
pass^4에서 38%라는 수치는 실제 서비스 배포 시 신뢰성 확보가 얼마나 어려운지 잘 보여줍니다.
- #recommender-systems
- #benchmark
- #agentic
- #reliability
Bharath Sivaram Narasimhan