Papers·2일 전
DeNovoSWE: 저장소 단위 코드 생성 데이터셋 — Qwen3-30B 성능 5.8%→47.2%

AweAI 팀이 고수준 명세로부터 전체 저장소를 생성하는 4,818개 인스턴스 규모의 데이터셋 DeNovoSWE를 공개했습니다. 분할 정복과 비평-수정 전략으로 자동 구축했으며, 난이도 인식 궤적 필터링으로 품질과 다양성을 확보한 점이 특징입니다. Qwen3-30B-A3B를 미세조정한 결과 BeyondSWE-Doc2Repo 벤치마크에서 5.8%에서 47.2%로 큰 폭 향상되었습니다.
LLM 기반 코드 에이전트의 역할이 단순 버그 수정에서 전체 저장소 구현으로 확장되는 가운데, 이를 위한 대규모 검증 가능한 데이터셋이 부족했던 문제를 해결합니다.
핵심 결론
- 벤치 — BeyondSWE-Doc2Repo 벤치마크에서 Qwen3-30B-A3B의 점수를 5.8%에서 47.2%로 끌어올렸습니다.
- 데이터 — 4,818개 인스턴스, 각 인스턴스는 문서화만 보고 전체 저장소를 생성해야 하는 태스크입니다.
방법
- 자동 구축 — 샌드박스 에이전트 워크플로우로 사람 주석 없이 확장 가능하게 수집했습니다.
- 철학 — 분할 정복(divide and conquer)과 비평-수정(critic-repair) 전략을 사용해 복잡한 태스크를 분해하고 검증했습니다.
- 필터링 — 난이도 인식 궤적 필터링(difficulty-aware trajectory filtering)으로 데이터 품질과 다양성을 균형 있게 유지했습니다.
한계·조건
- 환경 — 데이터셋은 자동 생성되었으며, 수동 검증이 없어 일부 인스턴스에 노이즈가 포함될 가능성이 있습니다.
- 벤치 — BeyondSWE-Doc2Repo 벤치마크에 특화된 성능이며, 다른 SWE 태스크로의 일반화는 추가 검증이 필요합니다.
- 코드 — 데이터셋과 모델 가중치는 Hugging Face에 공개될 예정입니다.
편집자 한 줄
전체 저장소 생성을 위한 데이터셋이 드문 상황에서 4,818개 인스턴스는 의미 있는 규모입니다. 다만 자동 생성 특성상 실제 프로젝트와의 괴리가 어느 정도일지 후속 연구를 지켜볼 만합니다.
- #code-generation
- #dataset
- #software-engineering
- #qwen
- #aweai
AweAI Team