Papers·5일 전
희귀 언어 코드 생성 — 사전학습 + weight diff 전이로 0-리소스 언어 성능 향상

LLM이 거의 학습 데이터를 보지 못한 'no-resource 언어'에 대한 코드 생성 성능을 개선하는 방법을 제안합니다. 추가 사전학습이 가장 큰 성능 향상을 보였지만, instruction-tuned 모델에 직접 적용하면 명령 수행 능력이 저하됩니다. 이를 해결하기 위해 base 모델을 대상 언어로 추가 사전학습한 후, instruction 모델의 weight diff를 전이하는 방식으로 instruction-following 능력을 주입했습니다. 이 방법은 적은 비용으로 전용 instruct 모델을 구축할 수 있어 산업 현장에서 유용합니다.
LLM이 전혀 학습하지 않은 'no-resource 언어'에 대한 코드 생성 벤치마크를 공개하고, weight diff 전이를 통한 효율적인 적응 방법을 제시합니다.
핵심 결론
- 벤치 — 두 개의 신규 프로그래밍 언어(타이니 언어) 기반 코드 생성 벤치마크를 구축·공개했습니다.
- 성능 — 추가 사전학습이 프롬프트 기반 기법보다 큰 성능 향상을 보였으나, instruction 모델에 직접 적용 시 명령 수행 능력이 저하됩니다.
- 해법 — base 모델에 추가 사전학습 후 instruction 모델의 weight diff를 전이하면, 적은 비용으로 instruct 모델을 만들 수 있습니다.
방법
- 데이터 — 두 개의 신규 언어(예: TinyLang 계열)에 대해 소량의 코드 데이터를 수집·공개했습니다.
- 사전학습 — base 모델을 대상 언어 말뭉치로 추가 사전학습하여 언어 특화 표현을 학습시킵니다.
- weight diff — 사전학습된 base 모델과 instruction 모델 간의 파라미터 차이를 추출하여, 사전학습된 모델에 더하는 방식으로 instruction 능력을 주입합니다.
- 이 방식은 instruction fine-tuning 없이도 명령 수행 능력을 부여할 수 있어 계산 비용을 크게 줄입니다.
한계·조건
- 데이터 — 사용된 언어는 매우 작은 규모의 신규 언어로, 실제 산업용 도메인 언어와의 괴리가 있을 수 있습니다.
- 재현성 — 벤치마크와 코드는 공개되었으나, weight diff 전이의 일반화 가능성은 더 많은 언어 검증이 필요합니다.
- 비용 — 추가 사전학습 자체는 여전히 상당한 compute를 요구합니다.
편집자 한 줄
weight diff 전이 아이디어는 instruction tuning 비용을 낮추는 실용적인 접근입니다. 다만, base 모델의 사전학습 단계가 병목이 될 수 있어 전체 파이프라인의 효율성은 추가 분석이 필요해 보입니다.
- #code-generation
- #low-resource
- #llm
- #fine-tuning
Alessandro Giagnorio