Papers·어제

Tmax: 9B 파라미터 터미널 에이전트, Terminal-Bench 2.0에서 27% 달성 — 오픈 RL 레시피

Hamish Ivison 팀이 공개한 Tmax는 9B 파라미터로 Terminal-Bench 2.0에서 27%를 기록, 기존 대형 모델을 능가하는 오픈소스 RL 레시피입니다. 새로운 분류 체계로 난이도, 페르소나, 검증기 다양성을 조합해 데이터를 생성하고, 간단한 outcome-only RL로 학습했습니다. 기존 데이터셋보다 2.5배 큰 터미널 데이터셋과 코드, 모델을 모두 공개합니다.

터미널 에이전트의 RL 학습을 위한 강력한 오픈 레시피가 등장했습니다.

핵심 결론

성능 — 9B 파라미터 모델이 Terminal-Bench 2.0에서 27%를 기록, 더 큰 모델들을 앞질렀습니다.
비교 — 이전 최고 오픈 모델 대비 10%p 이상 향상된 수치입니다.

방법

데이터 생성 — 난이도, 페르소나, 검증기 다양성을 조합한 새로운 분류 체계로 대량의 터미널 환경을 저렴하게 생성합니다.
학습 — 간단한 outcome-only RL 레시피를 사용하며, SFT 데이터도 함께 활용합니다.
오픈소스 — 데이터셋은 기존 대비 2.5배 이상 크며, 모델과 코드도 GitHub에 공개되었습니다.

한계·조건

벤치마크 — Terminal-Bench 2.0에 특화된 결과이며, 다른 벤치마크에서의 일반화는 추가 검증이 필요합니다.
재현성 — 데이터, 코드, 모델이 모두 공개되어 재현 가능합니다.

편집자 한 줄

9B 모델로 이 정도 성능이면, 더 큰 모델에 같은 레시피를 적용하면 어떤 결과가 나올지 궁금하네요.

#terminal-agents
#rl
#open-source
#benchmark

Hamish Ivison

원문 보기 →

Tmax: 9B 파라미터 터미널 에이전트, Terminal-Bench 2.0에서 27% 달성 — 오픈 RL 레시피

핵심 결론

방법

한계·조건

Comments