Papers·어제

OpenThoughts-Agent: 100K 데이터로 7개 벤치마크 평균 44.8%, 기존 오픈 대비 3.9%p 향상

OpenThoughts-Agent 프로젝트가 에이전트 모델 학습을 위한 완전 공개 데이터 큐레이션 파이프라인을 제시했습니다. 100회 이상의 ablation 실험을 통해 태스크 소스와 다양성의 중요성을 체계적으로 분석했고, Qwen3-32B를 100K 예제로 fine-tuning하여 7개 에이전트 벤치마크 평균 44.8%를 기록, 기존 최고 오픈 데이터 모델(Nemotron-Terminal-32B, 40.9%)을 3.9%p 앞질렀습니다. 코드, 데이터, 모델을 전면 공개했지만, 32B 단일 모델 기준이며 더 큰 스케일에서의 일반화는 추가 검증이 필요합니다.

에이전트 언어 모델의 학습 데이터 큐레이션에 대한 체계적 실험과 공개 데이터셋을 제공하는 OpenThoughts-Agent 프로젝트입니다.

핵심 결론

벤치마크 — 7개 에이전트 벤치마크 평균 44.8% — 기존 오픈 데이터 기반 최고 모델(Nemotron-Terminal-32B, 40.9%) 대비 3.9%p 향상.
모델 — Qwen3-32B를 100K 예제로 fine-tuning, 다양한 태스크에서 일관된 성능 개선을 보였습니다.

방법

파이프라인 — 태스크 수집, 필터링, 다양성 보장, 포맷 변환 등 각 단계를 100회 이상 ablation 실험으로 최적화했습니다.
데이터 — 100K 예제로 구성된 훈련 세트를 공개하며, compute-controlled 비교에서 모든 규모에서 기존 오픈 데이터셋을 능가하는 scaling 특성을 보였습니다.

한계·조건

모델 크기 — 32B 단일 모델 기준이며, 더 큰 모델에서의 일반화는 검증되지 않았습니다.
벤치마크 — 7개 벤치마크는 주로 웹 탐색, 코드 실행, 툴 사용 등 특정 도메인에 편중되어 있습니다.
공개 — 데이터, 파이프라인, 모델, 실험 데이터 모두 openthoughts.ai에서 공개 — 재현 가능합니다.

편집자 한 줄

에이전트 학습 데이터의 체계적 큐레이션에 대한 벤치마크 역할을 할 만한 프로젝트입니다. 다만 32B 단일 모델 결과라 스케일 업 추세가 유지될지는 지켜볼 필요가 있겠네요.

#agent
#open-source
#data-pipeline
#qwen
#fine-tuning

Negin Raoof

원문 보기 →

OpenThoughts-Agent: 100K 데이터로 7개 벤치마크 평균 44.8%, 기존 오픈 대비 3.9%p 향상

핵심 결론

방법

한계·조건

Comments