← Back to feed
Papers·어제

RACES: 환경을 재귀적으로 조합해 RL 기반 추론 일반화 — 14B 모델 평균 3.1점 향상

RACES: 환경을 재귀적으로 조합해 RL 기반 추론 일반화 — 14B 모델 평균 3.1점 향상

Qwen 팀이 verifiable environment 를 재귀적으로 조합하는 RACES 프레임워크를 제안했습니다. 300개 개별 환경을 SEQUENTIAL, PARALLEL, SORT, SELECT 연산자로 조합해 다양한 추론 패턴을 유도한 결과, DeepSeek-R1-Distill-Qwen-14B는 6개 벤치마크 평균 48.2→51.3, Qwen3-14B는 58.8→61.1로 향상되었습니다. 50개 기반 환경만으로 300개 개별 환경과 유사한 성능을 내는 효율성도 확인했지만, 벤치마크가 환경 구성 시점에 보지 않은 것들인 점은 주목할 만합니다.

Qwen 팀이 verifiable environment 를 재귀적으로 조합해 RL 기반 추론 일반화를 개선한 RACES 프레임워크를 공개했습니다.

핵심 결론

  • 성능DeepSeek-R1-Distill-Qwen-14B: 6개 벤치마크 평균 48.2→51.3 (+3.1).
  • 성능Qwen3-14B: 58.8→61.1 (+2.3).
  • 효율50개 기반 환경만으로 300개 개별 환경과 유사한 일반화 성능 달성.

방법

  • 아이디어한 environment 의 출력 타입(codomain)이 다른 environment 의 입력 타입(domain)과 일치하면 자동으로 합성 가능하다는 점을 활용.
  • 연산자SEQUENTIAL, PARALLEL, SORT, SELECT 네 가지 조합 연산자로 다양한 추론 패턴 유도.
  • 구현300개 개별 environment 를 기반으로 재귀적 조합을 통해 대규모 composite environment 생성.

한계·조건

  • 벤치마크6개 벤치마크는 training environment 구성 시점에 보지 않은 unseen 이지만, 여전히 제한된 범위.
  • 모델 규모실험은 14B 모델에 한정; 더 큰 모델에서의 효과는 추가 검증 필요.
  • 코드코드 공개 여부는 논문에 명시되지 않았습니다.

편집자 한 줄

환경을 레고 블록처럼 조립한다는 발상이 깔끔하고, 50개로 300개 효과를 낸 효율성도 흥미롭네요. 다만 composite environment 의 난이도 분포나 다양성이 어떻게 제어되는지는 더 봐야 할 점입니다.

  • #reinforcement-learning
  • #reasoning
  • #qwen
  • #environment-scaling
Qwen
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —