Papers·5일 전
IBM Research, LLM 에이전트 평가 효율 높이는 DIVERT 공개 — 실패 탐지 2.5x 향상

IBM Research 팀이 LLM 기반 에이전트의 사용자 상호작용 평가를 효율화하는 DIVERT 프레임워크를 발표했습니다. 기존 Monte Carlo rollout 방식이 대화 초기 prefix를 반복 재생성하며 비효율적이었던 반면, DIVERT는 주요 결정 지점에서 상태를 스냅샷으로 저장하고 재개(resume)하여 중복 계산을 줄입니다. 각 분기점에서 다양성을 유도하는 사용자 응답으로 탐색을 확장해, 적은 토큰으로 더 많은 실패를 발견합니다. 단, 이 프레임워크는 시뮬레이션된 사용자에 의존하므로 실제 사용자 행동과의 괴리는 여전히 한계로 남습니다.
- #llm-agents
- #evaluation
- #ibm-research
- #user-simulation
IBM Research