Papers·2일 전
DelTA: RLVR 토큰 수준 신용 할당으로 수학 추론 3.26점 향상

RLVR 업데이트가 토큰 확률을 어떻게 바꾸는지 분석한 결과, 표준 방식은 공통 패턴(예: 형식 토큰)에 지배되어 희소한 판별 방향을 희석한다는 문제를 발견했습니다. 이를 해결하기 위해 제안된 DelTA는 토큰별 계수를 추정해 측별 중심을 대조적으로 만듦으로써 RLVR 업데이트 방향을 재조정합니다. Qwen3-8B-Base와 14B-Base에서 각각 3.26, 2.62점 평균 향상을 보였고, 코드 생성 및 도메인 외 평가에서도 일반화를 확인했습니다. 단, 동일 스케일 기준이며 추가 리소스 분석은 논문 참조.
- #rlvr
- #reinforcement-learning
- #token-credit-assignment
- #math-reasoning
- #qwen
Kaiyi Zhang