← Back to feed
Hypes·11시간 전

Ethan Mollick, AA의 새 에이전트 평가 벤치마크를 주목 — 미포화·비공개 테스트

Ethan Mollick이 AA의 이전 에이전트 평가를 비판했지만, 이번 새 벤치마크는 실제 지식 노동을 반영한 좋은 평가라고 인정. 미포화 상태에 비공개 홀드아웃 테스트를 도입한 점을 높이 샀네요. 다만 인간 비교 점수가 없다는 점은 아쉬운 부분.

  • #ethan-mollick
  • #ai-agents
  • #benchmark
  • #knowledge-work
Ethan Mollick
Ethan Mollick@emollick
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —