Papers·1개월 전

UCLA, 에이전트-환경 인터페이스를 학습하는 HarnessBridge — Terminal-Bench 2.0 및 SWE-bench Verified 에서 토큰 사용량 절반으로

UCLA 팀이 LLM 에이전트의 환경 상호작용을 자동으로 최적화하는 학습형 harness 컨트롤러 HarnessBridge 를 제안했습니다. 관측 투영과 행동 투영이라는 두 개의 양방향 투영을 학습해, Terminal-Bench 2.0과 SWE-bench Verified 에서 수동 설계 harness 와 동등하거나 더 나은 성능을 내면서 토큰 사용량과 궤적 길이를 크게 줄였습니다. 단, harness supervision 데이터셋 구축 비용이 추가로 든다는 점과 벤치마크가 특정 환경에 국한되어 있다는 한계가 있습니다.

UCLA 팀이 LLM 에이전트와 환경 사이의 인터페이스를 학습 가능한 모듈로 대체하는 HarnessBridge 를 공개했습니다.

핵심 결론

벤치 — Terminal-Bench 2.0 과 SWE-bench Verified 에서 수동 설계 harness 와 동등 이상의 성능.
효율 — 토큰 사용량과 궤적 길이를 절반 가까이 줄였습니다.

방법

양방향 투영 — 관측 투영은 원시 궤적을 의사결정에 필요한 상태로 압축하고, 행동 투영은 제안된 행동을 실행 가능한 전환 또는 궤적 기반 거절로 변환합니다.
HarnessBridge 는 harness supervision 데이터셋으로 통합 명령 튜닝을 통해 학습됩니다.

한계·조건

데이터 — harness supervision 데이터셋 구축에 추가 비용이 듭니다.
범위 — 벤치마크가 특정 환경(Terminal-Bench, SWE-bench)에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

편집자 한 줄

수동 엔지니어링에서 벗어나 harness 자체를 학습한다는 발상이 흥미롭습니다. 다만 데이터셋 구축 비용이 실용화의 관건이 될 듯하네요.

#llm-agents
#harness
#ucla
#terminal-bench
#swe-bench

University of California, Los Angeles

원문 보기 →

UCLA, 에이전트-환경 인터페이스를 학습하는 HarnessBridge — Terminal-Bench 2.0 및 SWE-bench Verified 에서 토큰 사용량 절반으로

핵심 결론

방법

한계·조건

Comments