Papers·1개월 전

EvoEnv: 모델이 스스로 환경을 구축해 RL 훈련 — Qwen3-4B 3.3% 성능 향상

Yucheng Shi 팀이 언어 모델이 스스로 훈련 환경을 생성하는 EvoEnv를 제안했습니다. 기존 RLVR이 성능을 오히려 낮추는 반면, EvoEnv는 Qwen3-4B-Thinking에서 72.4→74.8로 3.3% 상승시켰습니다. 핵심은 '풀기는 어렵지만 검증은 쉬운' 환경을 생성해 정책이 보상 해킹을 못 하게 하는 데 있습니다. 단, 10개 시드에서 시작해 단계별 검증을 거치므로 환경 생성 비용이 추가로 듭니다.

#rl
#self-improvement
#language-models
#evolving-environments

Yucheng Shi

원문 보기 →

EvoEnv: 모델이 스스로 환경을 구축해 RL 훈련 — Qwen3-4B 3.3% 성능 향상

Comments