Papers·5일 전
HarnessX: 에이전트 성능을 +14.5% 평균 향상시키는 적응형 실행 환경 파운드리

HarnessX는 프롬프트, 도구, 메모리, 제어 흐름으로 구성된 에이전트 실행 환경(harness)을 조립·적응·진화시키는 프레임워크입니다. AEGIS라는 추적 기반 다중 에이전트 진화 엔진을 통해 harness를 동적으로 최적화하고, 실행 궤적을 harness 업데이트와 모델 학습 신호로 재활용합니다. ALFWorld, GAIA, WebShop, tau^3-Bench, SWE-bench Verified 등 5개 벤치마크에서 평균 +14.5%(최대 +44.0%)의 성능 향상을 달성했습니다. 단, 코드베이스는 향후 오픈소스로 공개 예정이며, 현재는 논문과 figure만 공개된 상태입니다.
HarnessX는 에이전트의 실행 환경을 조립·적응·진화시키는 파운드리로, 5개 벤치마크에서 평균 +14.5% 성능 향상을 보였습니다.
핵심 결론
- 벤치 — ALFWorld, GAIA, WebShop, tau^3-Bench, SWE-bench Verified에서 평균 +14.5%, 최대 +44.0% 향상.
- 의의 — 모델 스케일링 없이 실행 환경 최적화만으로도 상당한 성능 개선이 가능함을 보여줍니다.
방법
- HarnessX — 타입이 있는 harness 프리미티브를 대수 치환(substitution algebra)으로 조립합니다.
- AEGIS — 추적 기반 다중 에이전트 진화 엔진으로, 강화학습과 상징적 적응을 연결하는 operational mirror 위에서 동작합니다.
- 폐루프 — 실행 궤적을 harness 업데이트와 모델 학습 신호로 동시에 사용해 harness-model 루프를 닫습니다.
한계·조건
- 공개 — 코드베이스는 향후 오픈소스로 공개 예정이며, 현재는 논문과 figure만 확인 가능합니다.
- 재현성 — 벤치마크별 세부 설정과 하이퍼파라미터가 논문에 명시되어 있으나, 코드 없이 완전 재현은 어렵습니다.
편집자 한 줄
에이전트 성능 향상의 또 다른 축을 제시한 점이 흥미롭습니다. 코드 공개 후 실제 재현 및 확장 가능성을 지켜볼 만합니다.
- #harness
- #agent
- #evolution
- #harnessx
Tingyang Chen