Papers·어제
AutoLab: 36개 장기 최적화 태스크로 측정한 에이전트의 지속적 반복 능력 — Claude Opus 4.6 최고 성능

Zhangchen Xu 팀이 초장기 폐쇄 루프 최적화 벤치마크 AutoLab을 공개했습니다. 시스템 최적화, 퍼즐, 모델 개발, CUDA 커널 등 4개 도메인 36개 태스크에서 올바르지만 의도적으로 비최적화된 기준선을 개선하도록 요구했는데, 성공의 핵심 예측 변수는 초기 시도 품질이 아니라 반복적인 벤치마킹과 편집을 지속하는 능력이었습니다. 17개 모델 중 Claude Opus 4.6이 가장 우수했지만, 대부분의 최첨단 모델은 조기 종료하거나 예산을 소진하며 최소한의 진전만 보였습니다.
AutoLab은 기존 벤치마크가 포착하지 못한 장기 반복 최적화 능력을 측정하는 36개 태스크 벤치마크입니다.
핵심 결론
- 태스크 — 시스템 최적화, 퍼즐&챌린지, 모델 개발, CUDA 커널 최적화 등 4개 도메인, 각각 9개씩 총 36개.
- 주요 발견 — 성공의 가장 강력한 예측 변수는 초기 시도 품질이 아니라 반복적 피드백 루프의 지속성.
- 최고 모델 — claude-opus-4.6이 가장 우수했으나, 대부분의 최첨단 모델(여러 독점 모델 포함)은 조기 종료하거나 예산 소진.
방법
- 설계 — 각 태스크는 올바르지만 의도적으로 성능이 낮은 기준선 코드에서 시작해, 엄격한 wall-clock 예산 내에서 개선하도록 요구.
- 평가 — 17개 최신 모델(Claude, GPT, Gemini, Llama 등)을 동일한 평가 프레임워크로 비교.
- 시간 인식(time awareness)이 중요한 요소로 드러났으며, 반복적 벤치마킹과 편집을 통해 피드백을 통합하는 능력이 핵심.
한계·조건
- 범위 — 36개 태스크는 전문가가 선별했지만, 실제 연구/엔지니어링 워크플로의 다양성을 완전히 대표하지는 않음.
- 예산 — wall-clock 예산은 태스크마다 다르며, 일부 태스크는 매우 긴 시간이 필요할 수 있음.
- 코드 — 전체 벤치마크, 평가 도구, 태스크 아티팩트는 오픈소스로 공개됨.
편집자 한 줄
장기 에이전트 평가의 새로운 기준이 될 만한 벤치마크입니다. 특히 '지속성'이 '초기 품질'보다 중요하다는 점은 흥미롭네요.
- #benchmark
- #long-horizon
- #autonomous-agents
- #optimization
Zhangchen Xu