Papers·1개월 전

τ-Rec: 에이전트 추천 시스템 벤치마크 — GPT-5.4도 pass^4 38%로 신뢰성 급락

τ-Rec은 에이전트형 대화형 추천 시스템을 위한 벤치마크로, LLM-as-a-judge의 주관성을 배제하고 검증 가능한 보상과 reveal-tagged elicitation 메커니즘을 도입했습니다. 5개 모델군 9개 설정을 평가한 결과, 최고 모델(GPT-5.4)도 pass^1에서 약 57%, pass^4에서 약 38%에 그쳐 신뢰성 한계를 드러냈습니다. 코드와 데이터는 공개되었습니다.

τ-Rec은 에이전트 추천 시스템의 일관된 추론 능력을 검증하기 위해 설계된 벤치마크로, 기존 LLM-as-a-judge 평가의 한계를 극복합니다.

핵심 결론

벤치마크 — τ-Rec은 검증 가능한 보상과 reveal-tagged elicitation(RTE) 메커니즘으로 주관적 평가를 대체합니다.
성능 — 최고 모델(GPT-5.4)도 pass^1 57%, pass^4 38%로 신뢰성 급락을 보여줍니다.
모델 — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B, GPT-5 mini 등 5개 패밀리 9개 설정 평가.

방법

RTE — 태스크 제약 조건이 대화 중에 드러나는 시점을 제어하는 reveal-tagged elicitation 메커니즘을 도입했습니다.
pass^k — 일관된 추론을 측정하기 위해 pass^k 신뢰도 지표를 사용합니다.
구조화된 카탈로그 조건자(Structured catalog predicates)를 기반으로 에이전트를 테스트합니다.

한계·조건

범위 — 벤치마크는 추천 시스템에 특화되어 있으며, 일반 대화 에이전트로의 일반화는 검증되지 않았습니다.
비용 — 평가에 여러 모델을 사용했지만, 각 모델의 추론 비용이나 지연 시간은 보고되지 않았습니다.
코드 — 모든 코드와 데이터는 GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

pass^4에서 38%라는 수치는 실제 서비스 배포 시 신뢰성 확보가 얼마나 어려운지 잘 보여줍니다.

#recommender-systems
#benchmark
#agentic
#reliability

Bharath Sivaram Narasimhan

원문 보기 →

τ-Rec: 에이전트 추천 시스템 벤치마크 — GPT-5.4도 pass^4 38%로 신뢰성 급락

핵심 결론

방법

한계·조건

Comments