Papers·1개월 전

HarnessForge: 에이전트 시스템의 구조와 정책을 함께 진화시키는 메타 적응 프레임워크 — Qwen3-8B 기준 최대 12.0% 성능 향상

Mingju Chen 팀이 LLM 에이전트 시스템의 실행 구조(harness)와 추론 정책(policy)을 동시에 진화시키는 HarnessForge를 제안했습니다. 기존 연구가 외부 도구나 정책만 개별 최적화한 데 비해, harness-policy 쌍을 공동 진화시키는 점이 핵심입니다. 5개 벤치마크에서 Qwen3-4B/8B 모두 harness-only·policy-only 대비 최대 12.0% 개선했으며, 코드도 공개되어 있습니다.

LLM 에이전트가 다양한 태스크 영역에서 동작하려면 시스템 수준의 메타 적응이 필요하다는 문제의식에서 출발한 연구입니다.

핵심 결론

태스크 — 다양한 도메인(5개 벤치마크)에서 LLM 에이전트 시스템의 harness-policy 공동 진화.
성능 — Qwen3-8B 기준 harness-only·policy-only 대비 최대 12.0% 향상, rollout 효율도 개선.
코드 — GitHub에 공개 완료 — 재현 가능.

방법

이중 구조 — 에이전트를 harness(실행 구조)와 policy(추론 정책) 쌍으로 분리, 각각의 적응 공간을 명시화.
공동 진화 — fault-guided harness tailoring으로 harness를 먼저 수정하고, harness-conditioned policy alignment로 policy를 재정렬.
이 과정을 반복하며 harness와 policy의 실행 호환성을 최적화하는 게 핵심 아이디어입니다.

한계·조건

백본 — Qwen3-4B/8B만 실험 — 더 큰 모델이나 다른 아키텍처에서의 일반화는 추가 검증 필요.
벤치 — 5개 벤치마크는 각기 다른 도메인이지만, 전부 공개된 QA/추론 태스크에 국한.
harness-policy 분리가 항상 유리한 것은 아니며, 태스크에 따라 분리 깊이를 조정해야 할 수 있습니다.

편집자 한 줄

에이전트 시스템의 구조적 적응을 정책 최적화와 연결 지은 점이 신선합니다. 단, 4B/8B 규모에서의 실험만으로는 확장성에 대한 확신이 아직 부족해 보입니다.

#llm-agents
#meta-adaptation
#harness-policy
#qwen3
#benchmark

Mingju Chen

원문 보기 →

HarnessForge: 에이전트 시스템의 구조와 정책을 함께 진화시키는 메타 적응 프레임워크 — Qwen3-8B 기준 최대 12.0% 성능 향상

핵심 결론

방법

한계·조건

Comments