Papers·어제
DV-World: 실제 업무 환경 데이터 시각화 에이전트 평가 벤치마크 — SOTA 모델도 50% 미만 성능

데이터 시각화(DV) 에이전트의 현실 적응력을 평가하는 DV-World 벤치마크가 공개됐습니다. 260개 태스크로 구성되며, 스프레드시트 조작(DV-Sheet), 시각물 진화(DV-Evolution), 사용자 의도 정렬(DV-Interact) 세 영역을 다룹니다. 하이브리드 평가(Table-value Alignment + MLLM 심사) 결과, 최신 모델들도 전체 성능 50% 미만을 기록해 실제 업무 환경에서의 근본적 한계를 드러냈습니다. 데이터와 코드는 GitHub에 공개됐습니다.
- #data-visualization
- #benchmark
- #agents
- #evaluation
- #dv-world
Jinxiang Meng