Papers·1개월 전

Entrocraft: 엔트로피 붕괴 방지로 4B 모델이 8B를 능가 — RL 성능 포화 해결

Purdue 팀이 RL 기반 LLM 훈련에서 성능 포화의 원인인 엔트로피 붕괴를 해결하는 Entrocraft를 제안했습니다. 기존 정규화나 클리핑 대신 거절 샘플링으로 어드밴티지 분포를 편향시켜 사용자 지정 엔트로피 스케줄을 구현하며, 선형 어닐링이 가장 효과적임을 발견했습니다. 4B 모델이 8B baseline을 능가하고, pass@K를 50% 향상시켰지만, 추가 하이퍼파라미터 튜닝이 필요할 수 있습니다.

#reinforcement-learning
#entropy
#llm
#purdue

Purdue University

원문 보기 →

Entrocraft: 엔트로피 붕괴 방지로 4B 모델이 8B를 능가 — RL 성능 포화 해결

Comments