Hypes·11시간 전
Ethan Mollick, AA의 새 에이전트 평가 벤치마크를 주목 — 미포화·비공개 테스트
Ethan Mollick이 AA의 이전 에이전트 평가를 비판했지만, 이번 새 벤치마크는 실제 지식 노동을 반영한 좋은 평가라고 인정. 미포화 상태에 비공개 홀드아웃 테스트를 도입한 점을 높이 샀네요. 다만 인간 비교 점수가 없다는 점은 아쉬운 부분.
- #ethan-mollick
- #ai-agents
- #benchmark
- #knowledge-work
Ethan Mollick@emollick