Papers·1주 전
Meta, rollout 요약 기반 test-time scaling — SWE-Bench 70.9→77.6%

Meta 팀이 장기 코딩 에이전트를 위한 test-time scaling 프레임워크를 제안했다. 각 rollout을 구조화된 요약으로 변환해 병렬(RTV)과 순차(PDR) 스케일링을 적용, Claude-4.5-Opus 기준 SWE-Bench Verified 70.9%→77.6%, Terminal-Bench v2.0 46.9%→59.1% 향상. 핵심은 시도 횟수 증가가 아닌 경험의 표현·선택·재사용에 있음을 보였다.
- #test-time-scaling
- #coding-agents
- #meta
- #swe-bench
AI at Meta