← Back to feed
Papers·어제

Tmax: 9B 파라미터 터미널 에이전트, Terminal-Bench 2.0에서 27% 달성 — 오픈 RL 레시피

Tmax: 9B 파라미터 터미널 에이전트, Terminal-Bench 2.0에서 27% 달성 — 오픈 RL 레시피

Hamish Ivison 팀이 공개한 Tmax는 9B 파라미터로 Terminal-Bench 2.0에서 27%를 기록, 기존 대형 모델을 능가하는 오픈소스 RL 레시피입니다. 새로운 분류 체계로 난이도, 페르소나, 검증기 다양성을 조합해 데이터를 생성하고, 간단한 outcome-only RL로 학습했습니다. 기존 데이터셋보다 2.5배 큰 터미널 데이터셋과 코드, 모델을 모두 공개합니다.

터미널 에이전트의 RL 학습을 위한 강력한 오픈 레시피가 등장했습니다.

핵심 결론

  • 성능9B 파라미터 모델이 Terminal-Bench 2.0에서 27%를 기록, 더 큰 모델들을 앞질렀습니다.
  • 비교이전 최고 오픈 모델 대비 10%p 이상 향상된 수치입니다.

방법

  • 데이터 생성난이도, 페르소나, 검증기 다양성을 조합한 새로운 분류 체계로 대량의 터미널 환경을 저렴하게 생성합니다.
  • 학습간단한 outcome-only RL 레시피를 사용하며, SFT 데이터도 함께 활용합니다.
  • 오픈소스데이터셋은 기존 대비 2.5배 이상 크며, 모델과 코드도 GitHub에 공개되었습니다.

한계·조건

  • 벤치마크Terminal-Bench 2.0에 특화된 결과이며, 다른 벤치마크에서의 일반화는 추가 검증이 필요합니다.
  • 재현성데이터, 코드, 모델이 모두 공개되어 재현 가능합니다.

편집자 한 줄

9B 모델로 이 정도 성능이면, 더 큰 모델에 같은 레시피를 적용하면 어떤 결과가 나올지 궁금하네요.

  • #terminal-agents
  • #rl
  • #open-source
  • #benchmark
Hamish Ivison
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —