Papers·3개월 전

Meta, rollout 요약 기반 test-time scaling — SWE-Bench 70.9→77.6%

Meta 팀이 장기 코딩 에이전트를 위한 test-time scaling 프레임워크를 제안했다. 각 rollout을 구조화된 요약으로 변환해 병렬(RTV)과 순차(PDR) 스케일링을 적용, Claude-4.5-Opus 기준 SWE-Bench Verified 70.9%→77.6%, Terminal-Bench v2.0 46.9%→59.1% 향상. 핵심은 시도 횟수 증가가 아닌 경험의 표현·선택·재사용에 있음을 보였다.

#test-time-scaling
#coding-agents
#meta
#swe-bench

AI at Meta

원문 보기 →

Meta, rollout 요약 기반 test-time scaling — SWE-Bench 70.9→77.6%

Comments