Papers·1개월 전

AutoLab: 36개 장기 최적화 태스크로 측정한 에이전트의 지속적 반복 능력 — Claude Opus 4.6 최고 성능

Zhangchen Xu 팀이 초장기 폐쇄 루프 최적화 벤치마크 AutoLab을 공개했습니다. 시스템 최적화, 퍼즐, 모델 개발, CUDA 커널 등 4개 도메인 36개 태스크에서 올바르지만 의도적으로 비최적화된 기준선을 개선하도록 요구했는데, 성공의 핵심 예측 변수는 초기 시도 품질이 아니라 반복적인 벤치마킹과 편집을 지속하는 능력이었습니다. 17개 모델 중 Claude Opus 4.6이 가장 우수했지만, 대부분의 최첨단 모델은 조기 종료하거나 예산을 소진하며 최소한의 진전만 보였습니다.

AutoLab은 기존 벤치마크가 포착하지 못한 장기 반복 최적화 능력을 측정하는 36개 태스크 벤치마크입니다.

핵심 결론

태스크 — 시스템 최적화, 퍼즐&챌린지, 모델 개발, CUDA 커널 최적화 등 4개 도메인, 각각 9개씩 총 36개.
주요 발견 — 성공의 가장 강력한 예측 변수는 초기 시도 품질이 아니라 반복적 피드백 루프의 지속성.
최고 모델 — claude-opus-4.6이 가장 우수했으나, 대부분의 최첨단 모델(여러 독점 모델 포함)은 조기 종료하거나 예산 소진.

방법

설계 — 각 태스크는 올바르지만 의도적으로 성능이 낮은 기준선 코드에서 시작해, 엄격한 wall-clock 예산 내에서 개선하도록 요구.
평가 — 17개 최신 모델(Claude, GPT, Gemini, Llama 등)을 동일한 평가 프레임워크로 비교.
시간 인식(time awareness)이 중요한 요소로 드러났으며, 반복적 벤치마킹과 편집을 통해 피드백을 통합하는 능력이 핵심.

한계·조건

범위 — 36개 태스크는 전문가가 선별했지만, 실제 연구/엔지니어링 워크플로의 다양성을 완전히 대표하지는 않음.
예산 — wall-clock 예산은 태스크마다 다르며, 일부 태스크는 매우 긴 시간이 필요할 수 있음.
코드 — 전체 벤치마크, 평가 도구, 태스크 아티팩트는 오픈소스로 공개됨.

편집자 한 줄

장기 에이전트 평가의 새로운 기준이 될 만한 벤치마크입니다. 특히 '지속성'이 '초기 품질'보다 중요하다는 점은 흥미롭네요.

#benchmark
#long-horizon
#autonomous-agents
#optimization

Zhangchen Xu

원문 보기 →

AutoLab: 36개 장기 최적화 태스크로 측정한 에이전트의 지속적 반복 능력 — Claude Opus 4.6 최고 성능

핵심 결론

방법

한계·조건

Comments