← Back to feed
Papers·어제

OpenThoughts-Agent: 100K 데이터로 7개 벤치마크 평균 44.8%, 기존 오픈 대비 3.9%p 향상

OpenThoughts-Agent: 100K 데이터로 7개 벤치마크 평균 44.8%, 기존 오픈 대비 3.9%p 향상

OpenThoughts-Agent 프로젝트가 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인을 제시했습니다. 100회 이상의 ablation 실험을 통해 태스크 소스와 다양성의 중요성을 체계적으로 분석했고, Qwen3-32B를 100K 예제로 fine-tuning하여 7개 에이전트 벤치마크 평균 44.8%를 기록, 기존 최고 오픈 데이터 모델(Nemotron-Terminal-32B, 40.9%)을 3.9%p 앞질렀습니다. 코드, 데이터, 모델을 전면 공개했지만, 32B 단일 모델 기준이며 더 큰 스케일에서의 일반화는 추가 검증이 필요합니다.

에이전트 언어 모델의 학습 데이터 큐레이션에 대한 체계적 실험과 공개 데이터셋을 제공하는 OpenThoughts-Agent 프로젝트입니다.

핵심 결론

  • 벤치마크7개 에이전트 벤치마크 평균 44.8% — 기존 오픈 데이터 기반 최고 모델(Nemotron-Terminal-32B, 40.9%) 대비 3.9%p 향상.
  • 모델Qwen3-32B를 100K 예제로 fine-tuning, 다양한 태스크에서 일관된 성능 개선을 보였습니다.

방법

  • 파이프라인태스크 수집, 필터링, 다양성 보장, 포맷 변환 등 각 단계를 100회 이상 ablation 실험으로 최적화했습니다.
  • 데이터100K 예제로 구성된 훈련 세트를 공개하며, compute-controlled 비교에서 모든 규모에서 기존 오픈 데이터셋을 능가하는 scaling 특성을 보였습니다.

한계·조건

  • 모델 크기32B 단일 모델 기준이며, 더 큰 모델에서의 일반화는 검증되지 않았습니다.
  • 벤치마크7개 벤치마크는 주로 웹 탐색, 코드 실행, 툴 사용 등 특정 도메인에 편중되어 있습니다.
  • 공개데이터, 파이프라인, 모델, 실험 데이터 모두 openthoughts.ai에서 공개 — 재현 가능합니다.

편집자 한 줄

에이전트 학습 데이터의 체계적 큐레이션에 대한 벤치마크 역할을 할 만한 프로젝트입니다. 다만 32B 단일 모델 결과라 스케일 업 추세가 유지될지는 지켜볼 필요가 있겠네요.

  • #agent
  • #open-source
  • #data-pipeline
  • #qwen
  • #fine-tuning
Negin Raoof
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —