← Back to feed
Papers·6일 전

RHO: 에이전트 하네스 자가 최적화 — SWE-Bench Pro 59%→78% (외부 피드백 없이)

RHO: 에이전트 하네스 자가 최적화 — SWE-Bench Pro 59%→78% (외부 피드백 없이)

RHO는 에이전트가 과거 궤적만으로 자신의 하네스(스킬·도구·워크플로우)를 자가 개선하는 방법입니다. 어려운 태스크를 선별해 재시도하고, self-validation과 self-consistency로 후보 업데이트 중 최선을 자체 선호(pairwise self-preference)로 고릅니다. SWE-Bench Pro에서 pass rate가 59%에서 78%로 상승했고, 소프트웨어 엔지니어링·테크니컬 워크·지식 워크 세 도메인에서 일관된 개선을 보였습니다. 단, 단일 라운드 기준이며 다중 라운드 누적 효과나 compute cost는 논의되지 않았습니다.

에이전트가 외부 피드백 없이 자신의 하네스를 자가 최적화하는 RHO를 소개합니다.

핵심 결론

  • 벤치SWE-Bench Pro pass rate 59% → 78% (단일 최적화 라운드).
  • 도메인소프트웨어 엔지니어링(Software Engineering), 테크니컬 워크(Technical Work), 지식 워크(Knowledge Work) 세 분야에서 일관된 개선.

방법

  • 코어셋 선별과거 궤적 중 어려운 태스크를 다양하게 선별(diverse coreset)해 재시도.
  • 자가 검증rollout 결과를 self-validation과 self-consistency로 분석, 후보 하네스 업데이트 생성.
  • 선호 선택pairwise self-preference로 가장 효과적인 업데이트를 자체 선정.

한계·조건

  • 라운드단일 최적화 라운드 기준, 다중 라운드 누적 효과는 분석되지 않음.
  • 비용추가 compute cost에 대한 정량적 보고는 없음.
  • 재현성코드 공개 여부는 명시되지 않음.

편집자 한 줄

외부 피드백 없이 궤적만으로 하네스를 개선한다는 점이 흥미롭습니다. 다만 단일 라운드 개선폭이 크니, 여러 라운드를 쌓으면 어디까지 갈지 궁금하네요.

  • #agents
  • #self-supervised
  • #optimization
  • #swe-bench
Wenbo Pan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —