← Back to feed
Papers·어제

AutoLab: 36개 장기 최적화 태스크로 측정한 에이전트의 지속적 반복 능력 — Claude Opus 4.6 최고 성능

AutoLab: 36개 장기 최적화 태스크로 측정한 에이전트의 지속적 반복 능력 — Claude Opus 4.6 최고 성능

Zhangchen Xu 팀이 초장기 폐쇄 루프 최적화 벤치마크 AutoLab을 공개했습니다. 시스템 최적화, 퍼즐, 모델 개발, CUDA 커널 등 4개 도메인 36개 태스크에서 올바르지만 의도적으로 비최적화된 기준선을 개선하도록 요구했는데, 성공의 핵심 예측 변수는 초기 시도 품질이 아니라 반복적인 벤치마킹과 편집을 지속하는 능력이었습니다. 17개 모델 중 Claude Opus 4.6이 가장 우수했지만, 대부분의 최첨단 모델은 조기 종료하거나 예산을 소진하며 최소한의 진전만 보였습니다.

AutoLab은 기존 벤치마크가 포착하지 못한 장기 반복 최적화 능력을 측정하는 36개 태스크 벤치마크입니다.

핵심 결론

  • 태스크시스템 최적화, 퍼즐&챌린지, 모델 개발, CUDA 커널 최적화 등 4개 도메인, 각각 9개씩 총 36개.
  • 주요 발견성공의 가장 강력한 예측 변수는 초기 시도 품질이 아니라 반복적 피드백 루프의 지속성.
  • 최고 모델claude-opus-4.6이 가장 우수했으나, 대부분의 최첨단 모델(여러 독점 모델 포함)은 조기 종료하거나 예산 소진.

방법

  • 설계각 태스크는 올바르지만 의도적으로 성능이 낮은 기준선 코드에서 시작해, 엄격한 wall-clock 예산 내에서 개선하도록 요구.
  • 평가17개 최신 모델(Claude, GPT, Gemini, Llama 등)을 동일한 평가 프레임워크로 비교.
  • 시간 인식(time awareness)이 중요한 요소로 드러났으며, 반복적 벤치마킹과 편집을 통해 피드백을 통합하는 능력이 핵심.

한계·조건

  • 범위36개 태스크는 전문가가 선별했지만, 실제 연구/엔지니어링 워크플로의 다양성을 완전히 대표하지는 않음.
  • 예산wall-clock 예산은 태스크마다 다르며, 일부 태스크는 매우 긴 시간이 필요할 수 있음.
  • 코드전체 벤치마크, 평가 도구, 태스크 아티팩트는 오픈소스로 공개됨.

편집자 한 줄

장기 에이전트 평가의 새로운 기준이 될 만한 벤치마크입니다. 특히 '지속성'이 '초기 품질'보다 중요하다는 점은 흥미롭네요.

  • #benchmark
  • #long-horizon
  • #autonomous-agents
  • #optimization
Zhangchen Xu
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —