← Back to feed
Papers·어제

EvoEnv: 모델이 스스로 환경을 구축해 RL 훈련 — Qwen3-4B 3.3% 성능 향상

EvoEnv: 모델이 스스로 환경을 구축해 RL 훈련 — Qwen3-4B 3.3% 성능 향상

Yucheng Shi 팀이 언어 모델이 스스로 훈련 환경을 생성하는 EvoEnv를 제안했습니다. 기존 RLVR이 성능을 오히려 낮추는 반면, EvoEnv는 Qwen3-4B-Thinking에서 72.4→74.8로 3.3% 상승시켰습니다. 핵심은 '풀기는 어렵지만 검증은 쉬운' 환경을 생성해 정책이 보상 해킹을 못 하게 하는 데 있습니다. 단, 10개 시드에서 시작해 단계별 검증을 거치므로 환경 생성 비용이 추가로 듭니다.

  • #rl
  • #self-improvement
  • #language-models
  • #evolving-environments
Yucheng Shi

Comments

— 첫 댓글을 남겨보세요 —