Papers·1개월 전

Adaptive Auto-Harness: LLM 에이전트를 위한 지속적 하네스 적응 프레임워크 — 오픈 스트림에서 기존 대비 성능 우위

Zewen Liu 팀이 제안한 Adaptive Auto-Harness는 예측 시장, 보안 대회, 이벤트 예측 같은 오픈엔드 태스크 스트림에서 LLM 에이전트의 하네스를 지속적으로 적응시키는 프레임워크입니다. 기존 고정 벤치마크 평가 대신, 태스크 분포 변화에 대응해 하네스를 진화시키며 다섯 가지 베이스라인 대비 우수한 성능을 보였습니다. 핵심은 상태 기반 멀티 에이전트 진화기와 하네스 트리 라우팅, 그리고 인간 개입 훅입니다. 단, 인간 스티어링이 필요한 경우가 있어 완전 자동화는 아닙니다.

오픈엔드 태스크 스트림에서 LLM 에이전트 하네스를 지속적으로 적응시키는 프레임워크 Adaptive Auto-Harness가 공개되었습니다.

핵심 결론

태스크 — 예측 시장, 보안 대회, 이벤트 예측 등 오픈엔드 스트림에서 기존 auto-harness 대비 일관된 성능 우위.
개선폭 — A-Evolve, GEPA, Meta-Harness 등 다섯 베이스라인 대비 전반적으로 높은 정확도와 적응력을 기록했습니다.

방법

프레임워크 — 오라클 하네스와의 격차를 진화 손실과 적응 손실로 분해, 각각을 상태 기반 멀티 에이전트 진화기와 하네스 트리 라우팅으로 해결.
인간 개입 — 히스토리만으로 신호가 부족한 경우 인간 스티어링 훅을 제공해 적응 실패를 보완합니다.
코드 — GitHub에 공개되어 재현 가능.

한계·조건

자동화 — 인간 스티어링이 필요한 경우가 있어 완전 자동화는 아닙니다.
벤치 — 세 가지 스트림에 국한된 평가로, 더 다양한 도메인에서의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

오픈 스트림 환경에서 하네스 적응 문제를 체계적으로 정의한 점이 인상적입니다. 다만 인간 개입 조건이 명확히 규정되지 않아 실용성은 사용 사례에 따라 달라질 수 있겠네요.

#llm-agents
#auto-harness
#adaptive-system
#open-ended-streams

Zewen Liu

원문 보기 →

Adaptive Auto-Harness: LLM 에이전트를 위한 지속적 하네스 적응 프레임워크 — 오픈 스트림에서 기존 대비 성능 우위

핵심 결론

방법

한계·조건

Comments