Papers·1개월 전

HiL-Bench: 에이전트의 판단력 측정 — 물어볼 때를 아는가?

Scale AI 연구진이 제시한 HiL-Bench는 코드 에이전트가 불완전한 명세에서 언제 도움을 요청해야 할지 판단하는 능력을 측정합니다. SWE와 text-to-SQL 도메인 평가에서 모든 프론티어 모델이 완전 정보 환경 대비 성능의 일부만 회복했으며, 32B 모델이 RL 훈련으로 Ask-F1 점수와 태스크 통과율을 함께 개선한 점이 주목할 만합니다. 다만 벤치마크 특화 metric(Ask-F1)에 과적합될 가능성과 실제 사용자와의 상호작용을 완전히 재현하지 못한다는 한계가 있습니다.

#code-agents
#benchmark
#human-in-the-loop
#scale-ai

Scale AI

원문 보기 →

HiL-Bench: 에이전트의 판단력 측정 — 물어볼 때를 아는가?

Comments