Papers·4일 전
DataClaw_0-9B: 에이전트 기반 데이터 테일러링으로 포스트 트레이닝 효율 향상

중국 연구진이 제안한 DataClaw_0-9B 모델은 에이전트 방식으로 원시 데이터를 능동적으로 정제·구조화하여 포스트 트레이닝 데이터의 정보 밀도를 높입니다. Factual Anchor 기반 합성 데이터로 학습된 이 모델은 비디오 생성, VQA, GUI 내비게이션 등에서 제한된 데이터로도 효율적인 적응을 보여줬습니다. 단, 0.9B 파라미터로 확장성 검증이 필요하고, 공개 데이터셋 규모가 제한적입니다.
DataClaw_0는 데이터 정제 자체를 학습 가능한 능력으로 전환해, 포스트 트레이닝 데이터의 질을 높이는 에이전트 모델입니다.
핵심 결론
- 성능 — 비디오 생성, VQA, GUI 내비게이션 등 3개 태스크에서 기존 수동/규칙 기반 정제 대비 일관된 성능 향상.
- 벤치마크 — 데이터 정제 전용 벤치마크 DataClaw_0-val을 새로 구축해 정량 평가를 가능하게 했습니다.
방법
- 패러다임 — 기존 수동/휴리스틱 주석에서 벗어나, 에이전트가 능동적으로 데이터를 정제·구조화하는 Agentic Data Tailoring 제안.
- 학습 — Factual Anchor 기반 생성 합성으로 데이터 부족 문제 해결, SFT + GRPO 로 정제 의도 정렬.
- 규모 — 0.9B 파라미터 모델로, 5개 도메인(물리·디지털 등) 합성 데이터로 학습.
한계·조건
- 확장성 — 0.9B 모델만 평가, 더 큰 모델에서의 성능 추세는 미확인.
- 데이터 — 합성 데이터 기반으로 실제 노이즈 분포와 차이가 있을 수 있음.
- 공개 — 프로젝트 페이지는 공개되었으나, 코드·데이터셋 전체 공개 여부는 불확실.
편집자 한 줄
데이터 정제를 에이전트화한 접근은 흥미롭지만, 0.9B 규모에서의 일반화와 실제 대규모 포스트 트레이닝 파이프라인 적용 가능성은 추가 검증이 필요해 보입니다.
- #data-curation
- #post-training
- #agentic-ai
- #grpo
- #multimodal
Cong Wan