Papers·1개월 전

Curation-Bench: 코딩 에이전트가 데이터 큐레이션 자동화 — 1/10 데이터로 SOTA 돌파

Curation-Bench는 데이터 큐레이션 루프를 자동화하는 에이전트 벤치마크로, 일반 코딩 에이전트가 10회 반복 내에 강력한 데이터 선택 기준선에 도달함을 보여줍니다. 핵심은 에이전트가 주로 기존 정책의 변형을 튜닝하는 실행-연구 격차(execution-research gap)를 발견하고, 이를 해결하기 위해 인용·구현·적응을 강제하는 스캐폴딩을 도입한 점입니다. 스캐폴딩된 에이전트는 사람의 설계 없이도 1/10 데이터 예산으로 기존 기준선을 능가하는 정책을 자율적으로 구성했습니다. 단, 이 성과는 특정 비전-언어 지시 튜닝 태스크에 국한되며, 코드와 벤치마크는 오픈소스로 공개되었습니다.

데이터 큐레이션의 반복적 수작업을 코딩 에이전트로 대체할 수 있을까? Curation-Bench가 그 가능성을 측정합니다.

핵심 결론

벤치 — 비전-언어 지시 튜닝 태스크에서 일반 코딩 에이전트가 10회 이내에 강력한 데이터 선택 기준선에 도달.
돌파 — 스캐폴딩된 에이전트는 사람 설계 없이 기존 기준선 대비 1/10 데이터 예산으로 더 나은 정책을 자율적으로 구성.

방법

Curation-Bench — 모델·학습 레시피·평가를 고정하고, 에이전트에 CLI로 데이터 검사·정책 구현·제출·수정 권한을 부여.
실행-연구 격차 — 에이전트는 주로 기존 정책의 변형을 튜닝하며, 새로운 정책 패밀리를 탐색하지 못하는 경향.
스캐폴딩 — 각 반복에서 이전 방법을 인용·구현·적응하도록 강제하는 구조가 에이전트를 방법-주도 탐색으로 전환.

한계·조건

태스크 — 비전-언어 지시 튜닝 한 가지 인스턴스화만 검증, 다른 도메인 일반화는 미확인.
비용 — 스캐폴딩된 에이전트의 반복당 compute 비용이 높을 수 있음 (구체적 수치 미공개).
재현성 — 코드와 벤치마크는 오픈소스 공개, 재현 가능.

편집자 한 줄

스캐폴딩 전략이 에이전트의 탐색 행동을 근본적으로 바꾼 점이 인상적입니다. 다만 단일 태스크 결과이므로 일반화에는 추가 검증이 필요해 보입니다.

#data-curation
#agent-benchmark
#coding-agent
#vision-language

Feiyang Kang

원문 보기 →

Curation-Bench: 코딩 에이전트가 데이터 큐레이션 자동화 — 1/10 데이터로 SOTA 돌파

핵심 결론

방법

한계·조건

Comments