← Back to feed
Papers·4일 전

LongDS: 다중 턴 데이터 분석 에이전트 벤치마크 — 최고 모델도 48% 정확도, 장기 의존성 실패 52~69%

LongDS: 다중 턴 데이터 분석 에이전트 벤치마크 — 최고 모델도 48% 정확도, 장기 의존성 실패 52~69%

Ant Group 연구진이 장기 다중 턴 데이터 분석 벤치마크 LongDS를 공개했습니다. Kaggle 노트북 기반 68개 태스크, 2,225턴으로 구성되며 평균 의존성 스팬이 11.3턴에 달합니다. 최고 모델(GPT-4 계열)도 평균 정확도 48.45%에 그쳤고, 초기 턴 대비 후반 턴에서 성능이 47포인트 하락했습니다. 실패 원인의 52~69%가 장기 의존성 오류로, 추가 에이전트 스텝이 성능 향상으로 이어지지 않는 점이 핵심 병목입니다.

Ant Group이 장기 다중 턴 데이터 분석 에이전트의 상태 추적 능력을 평가하는 벤치마크 LongDS를 공개했습니다.

핵심 결론

  • 벤치 규모68개 태스크, 2,225턴, 6개 도메인(지구과학, 비즈니스, 교육 등).
  • 최고 성능가장 좋은 모델도 평균 정확도 48.45%에 불과.
  • 성능 하락초기 턴 대비 후반 턴에서 정확도가 47포인트 급락.
  • 실패 분석장기 의존성 오류가 전체 실패의 52~69%를 차지.

방법

  • 태스크 설계실제 Kaggle 노트북에서 추출한 분석 흐름을 기반으로 상태 진화 패턴(반사실적 변형, 롤백, 다중 상태 합성 등)을 포함.
  • 의존성평균 의존성 스팬 11.3턴으로, 이전 턴의 분석 상태를 유지·갱신·복원·조합해야 함.
  • 평가 모델GPT-4, Claude 3, Gemini 등 5개 최신 모델 평가.

한계·조건

  • 벤치 범위68개 태스크로 규모가 크지 않으며, 도메인 편향 가능성.
  • 에이전트 설계추가 스텝이 성능 향상으로 이어지지 않아, 단순히 interaction budget을 늘리는 전략이 무의미함을 시사.
  • 코드 공개GitHub(zjunlp/DataMind)에서 코드와 데이터 공개 예정.

편집자 한 줄

장기 분석 에이전트의 현실적 한계를 잘 드러내는 벤치마크입니다. 상태 추적 자체가 병목이라는 점은 향후 agent 설계에 중요한 시사점을 줍니다.

  • #data-analysis
  • #benchmark
  • #long-horizon
  • #agents
  • #ant-group
Ant Group
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —