Papers·1개월 전

GoLongRL: 오픈소스 장문맥 RLVR 레시피 — 23K 샘플 데이터셋 + TMN-Reweight로 Qwen3-30B가 DeepSeek-R1 수준 달성

GoLongRL은 장문맥 강화학습을 위한 완전 오픈소스 post-training 레시피로, 23K개의 RLVR 샘플과 전체 파이프라인을 공개합니다. 9개 태스크 유형을 포괄하는 능력 기반 데이터 구성과 이종 보상 최적화를 위한 TMN-Reweight 기법을 제안합니다. Qwen3-30B-A3B 모델이 이 데이터로 학습 시 DeepSeek-R1-0528 및 Qwen3-235B-A22B-Thinking-2507과 비슷한 장문맥 성능을 보였습니다. 단, vanilla GRPO 대비 TMN-Reweight의 추가 개선폭은 평균 성능 기준이며, 특정 벤치마크에 따라 차이가 있을 수 있습니다.

#long-context
#reinforcement-learning
#rlvr
#qwen
#open-source

Minxuan Lv

원문 보기 →

GoLongRL: 오픈소스 장문맥 RLVR 레시피 — 23K 샘플 데이터셋 + TMN-Reweight로 Qwen3-30B가 DeepSeek-R1 수준 달성

Comments