Papers·어제
OpenThoughts-Agent: 100K 데이터로 7개 벤치마크 평균 44.8%, 기존 오픈 대비 3.9%p 향상

OpenThoughts-Agent 프로젝트가 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인을 제시했습니다. 100회 이상의 ablation 실험을 통해 태스크 소스와 다양성의 중요성을 체계적으로 분석했고, Qwen3-32B를 100K 예제로 fine-tuning하여 7개 에이전트 벤치마크 평균 44.8%를 기록, 기존 최고 오픈 데이터 모델(Nemotron-Terminal-32B, 40.9%)을 3.9%p 앞질렀습니다. 코드, 데이터, 모델을 전면 공개했지만, 32B 단일 모델 기준이며 더 큰 스케일에서의 일반화는 추가 검증이 필요합니다.
에이전트 언어 모델의 학습 데이터 큐레이션에 대한 체계적 실험과 공개 데이터셋을 제공하는 OpenThoughts-Agent 프로젝트입니다.
핵심 결론
- 벤치마크 — 7개 에이전트 벤치마크 평균 44.8% — 기존 오픈 데이터 기반 최고 모델(Nemotron-Terminal-32B, 40.9%) 대비 3.9%p 향상.
- 모델 — Qwen3-32B를 100K 예제로 fine-tuning, 다양한 태스크에서 일관된 성능 개선을 보였습니다.
방법
- 파이프라인 — 태스크 수집, 필터링, 다양성 보장, 포맷 변환 등 각 단계를 100회 이상 ablation 실험으로 최적화했습니다.
- 데이터 — 100K 예제로 구성된 훈련 세트를 공개하며, compute-controlled 비교에서 모든 규모에서 기존 오픈 데이터셋을 능가하는 scaling 특성을 보였습니다.
한계·조건
- 모델 크기 — 32B 단일 모델 기준이며, 더 큰 모델에서의 일반화는 검증되지 않았습니다.
- 벤치마크 — 7개 벤치마크는 주로 웹 탐색, 코드 실행, 툴 사용 등 특정 도메인에 편중되어 있습니다.
- 공개 — 데이터, 파이프라인, 모델, 실험 데이터 모두 openthoughts.ai에서 공개 — 재현 가능합니다.
편집자 한 줄
에이전트 학습 데이터의 체계적 큐레이션에 대한 벤치마크 역할을 할 만한 프로젝트입니다. 다만 32B 단일 모델 결과라 스케일 업 추세가 유지될지는 지켜볼 필요가 있겠네요.
- #agent
- #open-source
- #data-pipeline
- #qwen
- #fine-tuning
Negin Raoof