Papers·4일 전

DataClaw_0-9B: 에이전트 기반 데이터 테일러링으로 포스트 트레이닝 효율 향상

중국 연구진이 제안한 DataClaw_0-9B 모델은 에이전트 방식으로 원시 데이터를 능동적으로 정제·구조화하여 포스트 트레이닝 데이터의 정보 밀도를 높입니다. Factual Anchor 기반 합성 데이터로 학습된 이 모델은 비디오 생성, VQA, GUI 내비게이션 등에서 제한된 데이터로도 효율적인 적응을 보여줬습니다. 단, 0.9B 파라미터로 확장성 검증이 필요하고, 공개 데이터셋 규모가 제한적입니다.

DataClaw_0는 데이터 정제 자체를 학습 가능한 능력으로 전환해, 포스트 트레이닝 데이터의 질을 높이는 에이전트 모델입니다.

핵심 결론

성능 — 비디오 생성, VQA, GUI 내비게이션 등 3개 태스크에서 기존 수동/규칙 기반 정제 대비 일관된 성능 향상.
벤치마크 — 데이터 정제 전용 벤치마크 DataClaw_0-val을 새로 구축해 정량 평가를 가능하게 했습니다.

방법

패러다임 — 기존 수동/휴리스틱 주석에서 벗어나, 에이전트가 능동적으로 데이터를 정제·구조화하는 Agentic Data Tailoring 제안.
학습 — Factual Anchor 기반 생성 합성으로 데이터 부족 문제 해결, SFT + GRPO 로 정제 의도 정렬.
규모 — 0.9B 파라미터 모델로, 5개 도메인(물리·디지털 등) 합성 데이터로 학습.

한계·조건

확장성 — 0.9B 모델만 평가, 더 큰 모델에서의 성능 추세는 미확인.
데이터 — 합성 데이터 기반으로 실제 노이즈 분포와 차이가 있을 수 있음.
공개 — 프로젝트 페이지는 공개되었으나, 코드·데이터셋 전체 공개 여부는 불확실.

편집자 한 줄

데이터 정제를 에이전트화한 접근은 흥미롭지만, 0.9B 규모에서의 일반화와 실제 대규모 포스트 트레이닝 파이프라인 적용 가능성은 추가 검증이 필요해 보입니다.

#data-curation
#post-training
#agentic-ai
#grpo
#multimodal

Cong Wan

원문 보기 →

DataClaw_0-9B: 에이전트 기반 데이터 테일러링으로 포스트 트레이닝 효율 향상

핵심 결론

방법

한계·조건

Comments