Papers·3개월 전

Themis, 다국어·다기준 코드 RM 공개 — 350K+ 선호 쌍으로 600M~32B 모델 학습

Themis 팀이 코드 생성용 보상 모델(RM)의 다국어·다기준 평가를 위한 Themis-CodeRewardBench와 350K 이상의 선호 쌍을 포함한 Themis-CodePreference 데이터셋을 공개했습니다. 기존 RM이 기능적 정확성 외에는 취약한 점을 관찰하고, 600M에서 32B 파라미터까지 다양한 크기의 Themis-RM을 학습해 다섯 가지 선호 기준(기능적 정확성, 효율성, 가독성 등)과 여덟 가지 프로그래밍 언어에서 평가했습니다. 실험 결과, 다양한 선호 데이터로 학습할 때 긍정적인 스케일링 추세와 교차 언어 전이 효과가 나타났으며, 다기준 학습이 신뢰할 수 있는 코드 RM에 중요함을 보였습니다. 다만 코드 RM의 실용성은 여전히 특정 벤치마크에 의존적이라는 한계가 있습니다.

#reward-model
#code-generation
#themis
#multilingual
#preference-tuning

Themis

원문 보기 →

Themis, 다국어·다기준 코드 RM 공개 — 350K+ 선호 쌍으로 600M~32B 모델 학습

Comments