Papers·1개월 전

LongDS: 다중 턴 데이터 분석 에이전트 벤치마크 — 최고 모델도 48% 정확도, 장기 의존성 실패 52~69%

Ant Group 연구진이 장기 다중 턴 데이터 분석 벤치마크 LongDS를 공개했습니다. Kaggle 노트북 기반 68개 태스크, 2,225턴으로 구성되며 평균 의존성 스팬이 11.3턴에 달합니다. 최고 모델(GPT-4 계열)도 평균 정확도 48.45%에 그쳤고, 초기 턴 대비 후반 턴에서 성능이 47포인트 하락했습니다. 실패 원인의 52~69%가 장기 의존성 오류로, 추가 에이전트 스텝이 성능 향상으로 이어지지 않는 점이 핵심 병목입니다.

Ant Group이 장기 다중 턴 데이터 분석 에이전트의 상태 추적 능력을 평가하는 벤치마크 LongDS를 공개했습니다.

핵심 결론

벤치 규모 — 68개 태스크, 2,225턴, 6개 도메인(지구과학, 비즈니스, 교육 등).
최고 성능 — 가장 좋은 모델도 평균 정확도 48.45%에 불과.
성능 하락 — 초기 턴 대비 후반 턴에서 정확도가 47포인트 급락.
실패 분석 — 장기 의존성 오류가 전체 실패의 52~69%를 차지.

방법

태스크 설계 — 실제 Kaggle 노트북에서 추출한 분석 흐름을 기반으로 상태 진화 패턴(반사실적 변형, 롤백, 다중 상태 합성 등)을 포함.
의존성 — 평균 의존성 스팬 11.3턴으로, 이전 턴의 분석 상태를 유지·갱신·복원·조합해야 함.
평가 모델 — GPT-4, Claude 3, Gemini 등 5개 최신 모델 평가.

한계·조건

벤치 범위 — 68개 태스크로 규모가 크지 않으며, 도메인 편향 가능성.
에이전트 설계 — 추가 스텝이 성능 향상으로 이어지지 않아, 단순히 interaction budget을 늘리는 전략이 무의미함을 시사.
코드 공개 — GitHub(zjunlp/DataMind)에서 코드와 데이터 공개 예정.

편집자 한 줄

장기 분석 에이전트의 현실적 한계를 잘 드러내는 벤치마크입니다. 상태 추적 자체가 병목이라는 점은 향후 agent 설계에 중요한 시사점을 줍니다.

#data-analysis
#benchmark
#long-horizon
#agents
#ant-group

Ant Group

원문 보기 →

LongDS: 다중 턴 데이터 분석 에이전트 벤치마크 — 최고 모델도 48% 정확도, 장기 의존성 실패 52~69%

핵심 결론

방법

한계·조건

Comments