Papers·3일 전
ChildAgentEval: MLLM 기반 에이전트의 인지 연령 정렬 평가 — 아동용 지능 검사에서 착안한 벤치마크

PediaMed AI 팀이 아동용 지능 검사(WISC)에서 착안한 ChildAgentEval을 공개했습니다. 이 벤치마크는 다양한 MLLM 기반 에이전트의 추론 성능을 연령별 인간 발달 단계와 체계적으로 비교하여, 현재 에이전트 AI 시스템이 어느 수준에서 아동 수준의 인지 행동을 모사할 수 있는지 드러냅니다. 흥미로운 점은 강력한 도구와 고급 MLLM을 통합했음에도 불구하고, 최신 AI 에이전트가 어린아이도 쉽게 해결하는 기초적인 과제에서 자주 실패한다는 점을 지적합니다. 단, 이 벤치마크는 특정 연령대의 인지 능력 평가에 초점을 맞추고 있어, 일반적인 AI 성능 평가와는 다른 관점을 제공합니다.
- #mllm
- #benchmark
- #cognitive
- #agent
- #pediamed-ai
PediaMed AI