Papers·1개월 전

Socratic-SWE: 자기 진화 SWE 에이전트 — 해결 흔적을 스킬로 증류해 3회 반복 후 SWE-bench Verified 50.40%

Chuan Xiao 팀이 SWE 에이전트의 자기 진화 프레임워크 Socratic-SWE를 제안했습니다. 기존 합성 데이터 생성 방식과 달리, 에이전트의 과거 해결 흔적을 구조화된 스킬로 증류하고 이를 바탕으로 타겟 수리 태스크를 생성해 훈련 커리큘럼을 적응적으로 구성합니다. SWE-bench Verified, Lite, Pro, Terminal-Bench 2.0에서 동일 계산 예산 하에 자기 진화 베이스라인을 일관되게 상회하며, SWE-bench Verified에서 3회 반복 후 50.40%를 달성했습니다. 흥미로운 점은 해결 흔적 자체를 훈련 신호로 재사용할 수 있는 확장 가능한 기반이라는 점입니다.

Chuan Xiao 팀이 SWE 에이전트의 자기 진화 프레임워크 Socratic-SWE를 제안했습니다. 기존 합성 데이터 생성 방식과 달리, 에이전트의 과거 해결 흔적을 구조화된 스킬로 증류하고 이를 바탕으로 타겟 수리 태스크를 생성해 훈련 커리큘럼을 적응적으로 구성합니다.

핵심 결론

벤치 — SWE-bench Verified에서 3회 반복 후 50.40% 달성, 동일 계산 예산 하에서 자기 진화 베이스라인 대비 일관된 개선.
범위 — SWE-bench Verified, Lite, Pro, Terminal-Bench 2.0 네 벤치 모두에서 개선 확인.

방법

클로즈드 루프 — 에이전트의 해결 흔적을 스킬로 증류하고, 이 스킬이 실제 리포지토리에서 타겟 수리 태스크 생성을 안내합니다.
검증 — 생성된 태스크는 실행 기반 검증과 solver-gradient alignment 보상으로 점수화되어, 검증 가능하고 Solver 개선에 유용한 태스크만 유지됩니다.
업데이트된 Solver가 새 흔적을 생성하며, 태스크 커리큘럼이 여러 라운드에 걸쳐 적응적으로 변화합니다.

한계·조건

계산 — 3회 반복에 필요한 계산량은 명시되지 않았으나, 동일 계산 예산 내 비교이므로 추가 리소스 없이 개선을 얻은 셈입니다.
재현성 — 코드 공개 여부는 논문에서 명시되지 않았습니다.
벤치마크 특화 가능성 — SWE-bench 계열에 최적화되었을 수 있으며, 다른 도메인에서의 일반화는 추가 검증이 필요합니다.

편집자 한 줄

해결 흔적을 스킬로 증류한다는 아이디어는 간단하면서도 효과적입니다. 다만, 스킬의 질이 초기 에이전트 성능에 크게 의존할 가능성이 있어, 초기화 조건에 따른 민감도를 후속 연구에서 확인해볼 만합니다.

#swe-agent
#self-evolution
#synthetic-data
#swe-bench
#llm

Chuan Xiao

원문 보기 →

Socratic-SWE: 자기 진화 SWE 에이전트 — 해결 흔적을 스킬로 증류해 3회 반복 후 SWE-bench Verified 50.40%

핵심 결론

방법

한계·조건

Comments