Papers·1개월 전

SWE-Explore: 저장소 탐색 능력만 집중 평가하는 코딩 벤치마크 — 848개 이슈, 10개 언어

SWE-Explore는 코딩 에이전트의 저장소 탐색 능력을 분리 평가하는 벤치마크입니다. 848개 이슈, 10개 언어, 203개 저장소를 포함하며, 성공한 에이전트 궤적에서 line-level ground truth를 추출해 coverage·ranking·context-efficiency로 측정합니다. 실험 결과, 에이전트 방식이 고전 검색보다 확실히 우수했지만, line-level coverage와 효율적 ranking이 여전히 핵심 차별화 요소로 남았습니다.

SWE-Explore는 코딩 에이전트의 저장소 탐색 능력만 따로 떼어 평가하는 벤치마크입니다. 기존 SWE-bench 등은 resolved/unresolved 이진 결과만 보지만, 이 벤치마크는 탐색 과정을 직접 측정합니다.

핵심 결론

벤치 규모 — 848개 이슈, 10개 프로그래밍 언어, 203개 오픈소스 저장소를 포함합니다.
평가 축 — coverage, ranking, context-efficiency 세 가지 차원으로 탐색 성능을 측정합니다.
하위 태스크 — 저장소 이해, 컨텍스트 검색, 코드 위치 파악, 버그 진단 등 세부 능력을 분리 평가할 수 있습니다.

방법

Ground truth — 동일 이슈를 성공적으로 해결한 독립 에이전트 궤적에서 line-level 정답을 추출합니다.
탐색기 — 고정 line budget 내에서 관련 코드 영역의 순위 목록을 반환하는 explorer를 평가합니다.
메트릭 — coverage, ranking, context-efficiency가 downstream 수리 성능과 강하게 상관함을 보였습니다.

한계·조건

탐색만 평가 — 수리 능력은 평가하지 않으며, 탐색 성능이 수리 성능을 완전히 대변하지는 않습니다.
Ground truth 의존성 — 성공한 에이전트 궤적에 의존하므로, 다양한 해결 경로를 완전히 포괄하지 못할 수 있습니다.
코드 공개 — Hugging Face에 데이터셋과 평가 코드가 공개되어 있습니다.

편집자 한 줄

line-level coverage와 ranking이 여전히 어려운 과제라는 점이 인상적입니다. agentic 탐색이 고전 검색보다 낫지만, 정밀한 위치 파악은 아직 갈 길이 멀어 보입니다.

#code-generation
#benchmark
#agent
#repository-exploration

Shanghai Jiao Tong University

원문 보기 →

SWE-Explore: 저장소 탐색 능력만 집중 평가하는 코딩 벤치마크 — 848개 이슈, 10개 언어

핵심 결론

방법

한계·조건

Comments