Papers·1개월 전

저자원 언어 번역을 위한 Continual Instruction Tuning — Kupang Malay 에서 4~13점 개선

Kupang Malay 라는 저자원 언어를 대상으로 LLM fine-tuning 을 제안한 논문입니다. 이중언어 사전의 어휘·의미 특징을 활용한 instruction 설계와 Continual Instruction Tuning(CIT) 이라는 반복 instruction 학습 패러다임을 도입해, 표준 instruction-tuned 모델보다 4~6점, NMT 및 다국어 LLM보다 10~13점 높은 성능을 달성했습니다. 대규모 병렬 데이터 없이도 저자원 언어 번역을 개선할 가능성을 보여준 점이 흥미롭네요.

저자원 언어 Kupang Malay 번역을 위해 LLM fine-tuning 전략을 제안한 논문입니다.

핵심 결론

태스크 — Kupang Malay → Indonesian 번역에서 표준 instruction-tuned 모델 대비 BLEU 4~6점, NMT·다국어 LLM 대비 10~13점 향상.
모델 — Lius 라는 이름의 fine-tuned LLM (base 모델은 명시되지 않음).

방법

Instruction 설계 — 이중언어 사전에서 추출한 어휘·의미 특징을 instruction 에 포함시켜 모델이 저자원 언어 구조를 학습하도록 유도.
CIT — Continual Instruction Tuning — 여러 instruction set 을 순차적으로 학습시키는 방식으로, 단일 fine-tuning보다 일반화 성능이 높다고 합니다.

한계·조건

언어 — Kupang Malay 단일 언어 대상이며, 다른 저자원 언어로의 일반화는 추가 실험이 필요.
데이터 — 병렬 데이터 규모가 작지만, 사전 기반 특징 설계에 수작업이 일부 들어간 점은 재현성에 주의해야 합니다.
코드 — 코드·데이터 공개 여부는 논문에서 확인되지 않았습니다.

편집자 한 줄

저자원 언어 번역에서 사전 정보를 instruction 에 녹인 접근은 실용적이지만, 사전의 품질과 커버리지에 민감할 수 있어 후속 연구가 필요해 보입니다.

#llm
#translation
#low-resource
#continual-instruction-tuning
#kupang-malay

haim

원문 보기 →

저자원 언어 번역을 위한 Continual Instruction Tuning — Kupang Malay 에서 4~13점 개선

핵심 결론

방법

한계·조건

Comments