← Back to feed
Papers·어제

SWE 에이전트 평가, 통과 여부만으론 부족 — Lucky Pass 10.7% 확인 및 AgentLens 공개

SWE 에이전트 평가, 통과 여부만으론 부족 — Lucky Pass 10.7% 확인 및 AgentLens 공개

Microsoft 연구팀이 SWE-bench Verified 60개 태스크에서 8개 모델의 2,614개 OpenHands 트레이젝토리를 분석한 결과, 통과한 패치 중 10.7%가 회귀·맹목 재시도 등 'Lucky Pass'에 해당함을 밝혔습니다. AgentLens는 복수 통과 솔루션을 병합한 PTA 참조와 문맥 기반 의도 레이블러로 프로세스 품질을 평가하며, 품질 점수로 순위를 매기면 일부 모델의 순위가 5단계까지 변동합니다. 한계로는 47개 태스크만 참조 구축이 가능했고, 평가 기준이 특정 도구 사용에 편향될 가능성이 있습니다.

  • #swe-agent
  • #evaluation
  • #microsoft
  • #agentlens
  • #lucky-pass
Priyam Sahoo

Comments

— 첫 댓글을 남겨보세요 —