Papers·1개월 전

MLEvolve, LLM 기반 자기 진화 멀티 에이전트 프레임워크 — MLE-Bench 평균 메달률 12시간 예산에서 SOTA

Shangheng Du 팀이 MLE-Bench에서 평균 메달률과 유효 제출률 모두 SOTA를 달성한 자기 진화 멀티 에이전트 프레임워크 MLEvolve를 공개했습니다. 핵심은 Progressive MCGS로 그래프 기반 참조 엣지를 통해 교차 브랜치 정보 흐름을 가능하게 하고, 엔트로피 기반 점진적 스케줄로 탐색-활용 균형을 조절한 점입니다. 또한 Retrospective Memory로 경험을 축적하고, 전략 계획과 코드 생성을 분리한 적응형 코딩 모드를 도입했습니다. 단 12시간 예산(표준의 절반)에서도 기존 대비 우수한 성능을 보였으며, 수학 알고리즘 최적화 태스크에서 AlphaEvolve를 능가하는 등 교차 도메인 일반화도 확인됐습니다.

LLM 에이전트가 장기 과제에서 자기 진화를 이루도록 설계된 MLEvolve가 MLE-Bench에서 SOTA를 기록했습니다.

핵심 결론

벤치 — MLE-Bench에서 평균 메달률과 유효 제출률 모두 SOTA. 12시간 예산(표준 24시간의 절반) 조건.
일반화 — 수학 알고리즘 최적화 태스크에서 AlphaEvolve를 능가하며 교차 도메인 일반화 입증.

방법

Progressive MCGS — 트리 탐색을 확장해 그래프 기반 참조 엣지로 교차 브랜치 정보 흐름을 허용. 엔트로피 기반 점진적 스케줄로 초기 넓은 탐색에서 후기 집중 활용으로 전환.
Retrospective Memory — 콜드스타트 도메인 지식 베이스와 동적 글로벌 메모리를 결합해 태스크별 경험 검색 및 재사용.
적응형 코딩 모드 — 전략 계획과 코드 생성을 분리해 장기 반복을 안정화.

한계·조건

리소스 — 12시간 예산이지만 GPU 사용량 등 구체적인 compute 요구는 보고되지 않음.
코드 — GitHub 공개 (https://github.com/InternScience/MLEvolve).

편집자 한 줄

MLE-Bench가 아직 표준화된 벤치마크는 아니지만, 12시간 예산에서의 성능은 실용적 측면에서 의미 있는 결과입니다.

#llm-agent
#multi-agent
#machine-learning-engineering
#self-evolution
#mle-bench

Shangheng Du

원문 보기 →

MLEvolve, LLM 기반 자기 진화 멀티 에이전트 프레임워크 — MLE-Bench 평균 메달률 12시간 예산에서 SOTA

핵심 결론

방법

한계·조건

Comments