Papers·어제
RACES: 환경을 재귀적으로 조합해 RL 기반 추론 일반화 — 14B 모델 평균 3.1점 향상

Qwen 팀이 verifiable environment 를 재귀적으로 조합하는 RACES 프레임워크를 제안했습니다. 300개 개별 환경을 SEQUENTIAL, PARALLEL, SORT, SELECT 연산자로 조합해 다양한 추론 패턴을 유도한 결과, DeepSeek-R1-Distill-Qwen-14B는 6개 벤치마크 평균 48.2→51.3, Qwen3-14B는 58.8→61.1로 향상되었습니다. 50개 기반 환경만으로 300개 개별 환경과 유사한 성능을 내는 효율성도 확인했지만, 벤치마크가 환경 구성 시점에 보지 않은 것들인 점은 주목할 만합니다.
Qwen 팀이 verifiable environment 를 재귀적으로 조합해 RL 기반 추론 일반화를 개선한 RACES 프레임워크를 공개했습니다.
핵심 결론
- 성능 — DeepSeek-R1-Distill-Qwen-14B: 6개 벤치마크 평균 48.2→51.3 (+3.1).
- 성능 — Qwen3-14B: 58.8→61.1 (+2.3).
- 효율 — 50개 기반 환경만으로 300개 개별 환경과 유사한 일반화 성능 달성.
방법
- 아이디어 — 한 environment 의 출력 타입(codomain)이 다른 environment 의 입력 타입(domain)과 일치하면 자동으로 합성 가능하다는 점을 활용.
- 연산자 — SEQUENTIAL, PARALLEL, SORT, SELECT 네 가지 조합 연산자로 다양한 추론 패턴 유도.
- 구현 — 300개 개별 environment 를 기반으로 재귀적 조합을 통해 대규모 composite environment 생성.
한계·조건
- 벤치마크 — 6개 벤치마크는 training environment 구성 시점에 보지 않은 unseen 이지만, 여전히 제한된 범위.
- 모델 규모 — 실험은 14B 모델에 한정; 더 큰 모델에서의 효과는 추가 검증 필요.
- 코드 — 코드 공개 여부는 논문에 명시되지 않았습니다.
편집자 한 줄
환경을 레고 블록처럼 조립한다는 발상이 깔끔하고, 50개로 300개 효과를 낸 효율성도 흥미롭네요. 다만 composite environment 의 난이도 분포나 다양성이 어떻게 제어되는지는 더 봐야 할 점입니다.
- #reinforcement-learning
- #reasoning
- #qwen
- #environment-scaling
Qwen