← Back to feed
Papers·어제

MLEvolve, LLM 기반 자기 진화 멀티 에이전트 프레임워크 — MLE-Bench 평균 메달률 12시간 예산에서 SOTA

MLEvolve, LLM 기반 자기 진화 멀티 에이전트 프레임워크 — MLE-Bench 평균 메달률 12시간 예산에서 SOTA

Shangheng Du 팀이 MLE-Bench에서 평균 메달률과 유효 제출률 모두 SOTA를 달성한 자기 진화 멀티 에이전트 프레임워크 MLEvolve를 공개했습니다. 핵심은 Progressive MCGS로 그래프 기반 참조 엣지를 통해 교차 브랜치 정보 흐름을 가능하게 하고, 엔트로피 기반 점진적 스케줄로 탐색-활용 균형을 조절한 점입니다. 또한 Retrospective Memory로 경험을 축적하고, 전략 계획과 코드 생성을 분리한 적응형 코딩 모드를 도입했습니다. 단 12시간 예산(표준의 절반)에서도 기존 대비 우수한 성능을 보였으며, 수학 알고리즘 최적화 태스크에서 AlphaEvolve를 능가하는 등 교차 도메인 일반화도 확인됐습니다.

LLM 에이전트가 장기 과제에서 자기 진화를 이루도록 설계된 MLEvolve가 MLE-Bench에서 SOTA를 기록했습니다.

핵심 결론

  • 벤치MLE-Bench에서 평균 메달률과 유효 제출률 모두 SOTA. 12시간 예산(표준 24시간의 절반) 조건.
  • 일반화수학 알고리즘 최적화 태스크에서 AlphaEvolve를 능가하며 교차 도메인 일반화 입증.

방법

  • Progressive MCGS트리 탐색을 확장해 그래프 기반 참조 엣지로 교차 브랜치 정보 흐름을 허용. 엔트로피 기반 점진적 스케줄로 초기 넓은 탐색에서 후기 집중 활용으로 전환.
  • Retrospective Memory콜드스타트 도메인 지식 베이스와 동적 글로벌 메모리를 결합해 태스크별 경험 검색 및 재사용.
  • 적응형 코딩 모드전략 계획과 코드 생성을 분리해 장기 반복을 안정화.

한계·조건

  • 리소스12시간 예산이지만 GPU 사용량 등 구체적인 compute 요구는 보고되지 않음.
  • 코드GitHub 공개 (https://github.com/InternScience/MLEvolve).

편집자 한 줄

MLE-Bench가 아직 표준화된 벤치마크는 아니지만, 12시간 예산에서의 성능은 실용적 측면에서 의미 있는 결과입니다.

  • #llm-agent
  • #multi-agent
  • #machine-learning-engineering
  • #self-evolution
  • #mle-bench
Shangheng Du
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —