Papers·6일 전

독일어 LLM, 적은 데이터로 SOTA — Boldt, 10~360배 적은 토큰으로 효율적 학습

Boldt 팀이 독일어 LLM 학습에서 고품질 필터링 데이터를 반복 학습(multi-epoch)하는 방식이 대량의 경량 필터링 데이터를 한 번 학습(single-pass)하는 것보다 일관되게 우수함을 보였습니다. 500M 웹 문서에 계층적 품질 필터를 적용해 7 에폭까지 반복해도 성능 격차가 유지되었으며, 10~360배 적은 토큰으로 SOTA를 달성했습니다. 단, 이 전략은 고자원 언어(독일어)에 국한되었고, 저자원 언어나 다른 도메인에서의 일반화는 추가 검증이 필요합니다.

#llm
#data-filtering
#german
#training-efficiency
#boldt

Boldt

원문 보기 →

독일어 LLM, 적은 데이터로 SOTA — Boldt, 10~360배 적은 토큰으로 효율적 학습

Comments