Papers·1주 전
OpenBMB, 단순한 데이터 레시피로 장문 추론 평균 +7.2점 — GRPO + 14K 예제

OpenBMB 팀이 RL 기반 장문 추론 개선에서 데이터 구성의 중요성을 재조명했습니다. 세 가지 태스크 패밀리(검색, 다중 증거 합성, 추론)를 커버하는 8개 데이터셋 총 ~14K 예제를 수집하고, 최소한의 outcome-based GRPO 설정만으로 Qwen3-4B/8B/30B-A3B에서 각각 +7.2/+3.2/+6.4점의 평균 향상을 달성했습니다. 이득은 GAIA(+4.8), BrowseComp(+7.0) 같은 에이전트 태스크로도 전이됩니다. 데이터셋은 공개 예정입니다.
OpenBMB 팀이 장문 추론 개선을 위해 RL 데이터 구성의 중요성을 재조명하며, 단순한 데이터 레시피만으로 큰 성능 향상을 보였습니다.
핵심 결론
- 벤치 — Qwen3-4B/8B/30B-A3B에서 7개 장문 추론 벤치마크 평균 +7.2/+3.2/+6.4점.
- 에이전트 — GAIA +4.8, BrowseComp +7.0으로 에이전트 태스크로 전이 성공.
방법
- 데이터 중심 — 기존의 복잡한 reward engineering 없이, 세 가지 태스크 패밀리를 커버하는 8개 데이터셋(~14K 예제)을 수집한 게 핵심.
- 학습 — 최소한의 outcome-based GRPO 설정만 사용, 추가적인 reward 모델링 없음.
한계·조건
- 데이터 규모 — 14K 예제는 비교적 작은 규모지만, 태스크 다양성이 중요함을 시사합니다.
- 코드 — 데이터셋은 공개 예정이나, 학습 코드나 모델 가중치 공개 여부는 불명확합니다.
편집자 한 줄
데이터 품질과 다양성이 RL 기반 추론 개선에 얼마나 중요한지 보여주는 사례네요. 단순한 방법론으로도 큰 폭의 개선이 가능하다는 점이 인상적입니다.
- #long-context
- #reasoning
- #rl
- #openbmb
- #grpo
OpenBMB