← Back to feed
Papers·4일 전

CODA-BENCH: 코드와 데이터 지능을 함께 평가하는 첫 벤치마크 — 최고 에이전트 성공률 61.1%

CODA-BENCH: 코드와 데이터 지능을 함께 평가하는 첫 벤치마크 — 최고 에이전트 성공률 61.1%

RUC-DataLab 팀이 코드와 데이터 지능을 동시에 평가하는 최초의 벤치마크 CODA-BENCH를 공개했습니다. Kaggle 생태계 기반의 데이터 집약적 Linux 샌드박스에서 1,009개 태스크(평균 980개 파일)로 구성되며, 최고 성능 에이전트도 성공률 61.1%에 그쳐 데이터 탐색과 코드 실행 통합의 어려움을 드러냈습니다. 기존 벤치마크가 코드 또는 데이터 중 하나만 평가한 것과 달리, 실제 개발 환경의 복잡성을 반영한 점이 특징입니다.

RUC-DataLab 팀이 코드와 데이터 지능을 함께 평가하는 최초의 벤치마크 CODA-BENCH를 공개했습니다.

핵심 결론

  • 태스크31개 커뮤니티, 1,009개 데이터 기반 분석 태스크, 환경당 평균 980개 파일.
  • 최고 성능가장 뛰어난 에이전트도 성공률 61.1%에 그쳐, 데이터 탐색과 코드 실행 통합이 여전히 어려운 과제임을 보여줍니다.

방법

  • 샌드박스Kaggle 생태계 기반의 데이터 집약적 Linux 샌드박스로, 에이전트가 복잡한 파일 계층을 탐색하며 관련 리소스를 식별하고 코드를 생성해야 합니다.
  • 기존 벤치마크와 달리 코드와 데이터 역량을 분리하지 않고 동시에 평가하는 점이 핵심입니다.

한계·조건

  • 데이터 규모평균 980개 파일로 실제 데이터 규모와 노이즈를 시뮬레이션했지만, 더 큰 규모에서의 일반화는 추가 검증이 필요합니다.
  • 코드 공개논문과 함께 벤치마크가 공개되었으며, 재현 가능합니다.

편집자 한 줄

데이터 중심 환경에서 에이전트의 취약점을 구체적으로 드러낸 점이 유용합니다. 후속 연구에서 데이터 검색과 코드 실행의 연결을 어떻게 개선할지 지켜볼 만합니다.

  • #benchmark
  • #code-intelligence
  • #data-intelligence
  • #agent
  • #kaggle
RUC-DataLab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —