Papers·3일 전
π-Bench: 에이전트의 숨은 의도 파악 능력 측정 — 100개 멀티턴 태스크, 선제적 지원 여전히 도전

π-Bench는 사용자가 명시적으로 말하지 않은 숨은 의도(hidden intent)를 에이전트가 얼마나 잘 파악하고 선제적으로 행동하는지 평가하는 벤치마크입니다. 5개 도메인 사용자 페르소나 기반 100개 멀티턴 태스크로 구성되며, 태스크 간 의존성과 세션 간 연속성을 포함해 장기 상호작용에서의 선제성과 태스크 완료율을 함께 측정합니다. 실험 결과 선제적 지원은 여전히 어려운 과제이며, 태스크 완료와 선제성 사이에 뚜렷한 차이가 있음이 드러났습니다.
- #benchmark
- #proactive-assistance
- #llm-agents
- #multi-turn
Simplified Reasoning