Papers·4일 전
CODA-BENCH: 코드와 데이터 지능을 함께 평가하는 첫 벤치마크 — 최고 에이전트 성공률 61.1%

RUC-DataLab 팀이 코드와 데이터 지능을 동시에 평가하는 최초의 벤치마크 CODA-BENCH를 공개했습니다. Kaggle 생태계 기반의 데이터 집약적 Linux 샌드박스에서 1,009개 태스크(평균 980개 파일)로 구성되며, 최고 성능 에이전트도 성공률 61.1%에 그쳐 데이터 탐색과 코드 실행 통합의 어려움을 드러냈습니다. 기존 벤치마크가 코드 또는 데이터 중 하나만 평가한 것과 달리, 실제 개발 환경의 복잡성을 반영한 점이 특징입니다.
RUC-DataLab 팀이 코드와 데이터 지능을 함께 평가하는 최초의 벤치마크 CODA-BENCH를 공개했습니다.
핵심 결론
- 태스크 — 31개 커뮤니티, 1,009개 데이터 기반 분석 태스크, 환경당 평균 980개 파일.
- 최고 성능 — 가장 뛰어난 에이전트도 성공률 61.1%에 그쳐, 데이터 탐색과 코드 실행 통합이 여전히 어려운 과제임을 보여줍니다.
방법
- 샌드박스 — Kaggle 생태계 기반의 데이터 집약적 Linux 샌드박스로, 에이전트가 복잡한 파일 계층을 탐색하며 관련 리소스를 식별하고 코드를 생성해야 합니다.
- 기존 벤치마크와 달리 코드와 데이터 역량을 분리하지 않고 동시에 평가하는 점이 핵심입니다.
한계·조건
- 데이터 규모 — 평균 980개 파일로 실제 데이터 규모와 노이즈를 시뮬레이션했지만, 더 큰 규모에서의 일반화는 추가 검증이 필요합니다.
- 코드 공개 — 논문과 함께 벤치마크가 공개되었으며, 재현 가능합니다.
편집자 한 줄
데이터 중심 환경에서 에이전트의 취약점을 구체적으로 드러낸 점이 유용합니다. 후속 연구에서 데이터 검색과 코드 실행의 연결을 어떻게 개선할지 지켜볼 만합니다.
- #benchmark
- #code-intelligence
- #data-intelligence
- #agent
- #kaggle
RUC-DataLab