Papers·1개월 전

CODA-BENCH: 코드와 데이터 지능을 함께 평가하는 첫 벤치마크 — 최고 에이전트 성공률 61.1%

RUC-DataLab 팀이 코드와 데이터 지능을 동시에 평가하는 최초의 벤치마크 CODA-BENCH를 공개했습니다. Kaggle 생태계 기반의 데이터 집약적 Linux 샌드박스에서 1,009개 태스크(평균 980개 파일)로 구성되며, 최고 성능 에이전트도 성공률 61.1%에 그쳐 데이터 탐색과 코드 실행 통합의 어려움을 드러냈습니다. 기존 벤치마크가 코드 또는 데이터 중 하나만 평가한 것과 달리, 실제 개발 환경의 복잡성을 반영한 점이 특징입니다.

RUC-DataLab 팀이 코드와 데이터 지능을 함께 평가하는 최초의 벤치마크 CODA-BENCH를 공개했습니다.

핵심 결론

태스크 — 31개 커뮤니티, 1,009개 데이터 기반 분석 태스크, 환경당 평균 980개 파일.
최고 성능 — 가장 뛰어난 에이전트도 성공률 61.1%에 그쳐, 데이터 탐색과 코드 실행 통합이 여전히 어려운 과제임을 보여줍니다.

방법

샌드박스 — Kaggle 생태계 기반의 데이터 집약적 Linux 샌드박스로, 에이전트가 복잡한 파일 계층을 탐색하며 관련 리소스를 식별하고 코드를 생성해야 합니다.
기존 벤치마크와 달리 코드와 데이터 역량을 분리하지 않고 동시에 평가하는 점이 핵심입니다.

한계·조건

데이터 규모 — 평균 980개 파일로 실제 데이터 규모와 노이즈를 시뮬레이션했지만, 더 큰 규모에서의 일반화는 추가 검증이 필요합니다.
코드 공개 — 논문과 함께 벤치마크가 공개되었으며, 재현 가능합니다.

편집자 한 줄

데이터 중심 환경에서 에이전트의 취약점을 구체적으로 드러낸 점이 유용합니다. 후속 연구에서 데이터 검색과 코드 실행의 연결을 어떻게 개선할지 지켜볼 만합니다.

#benchmark
#code-intelligence
#data-intelligence
#agent
#kaggle

RUC-DataLab

원문 보기 →

CODA-BENCH: 코드와 데이터 지능을 함께 평가하는 첫 벤치마크 — 최고 에이전트 성공률 61.1%

핵심 결론

방법

한계·조건

Comments