← Back to feed
Papers·2일 전

CMU, 외부 평가 기반 자동 연구 루프 — Agent가 코드 편집·실험·피드백 순환, 3개 벤치마크 개선

CMU, 외부 평가 기반 자동 연구 루프 — Agent가 코드 편집·실험·피드백 순환, 3개 벤치마크 개선

Carnegie Mellon 팀이 외부 측정으로 구동되는 폐쇄형 실험 루프를 제안했습니다. Agent가 가설·코드 편집·실험 제출·평가 피드백을 순환하며, 사람 개입 없이 Parameter Golf validation bpb 0.81% 감소, NanoChat-D12 CORE 38.7% 향상, CIFAR-10 Airbench96 wallclock 4.59% 단축을 달성했습니다. 핵심은 lineage feedback으로, 평가 결과(크래시, 예산 초과, 정확도 미달 등)를 이후 레시피 수정에 활용하는 점입니다. 단, 1,197회 헤드라인 실행과 600회 제어 실험은 단일 설정 후 자동으로 진행되었으며, 엄격한 아키텍처 도메인 감사(157회 제출)가 포함되었습니다.

Carnegie Mellon University

Comments

— 첫 댓글을 남겨보세요 —