← Back to feed
Papers·어제

저자원 언어 번역을 위한 Continual Instruction Tuning — Kupang Malay 에서 4~13점 개선

저자원 언어 번역을 위한 Continual Instruction Tuning — Kupang Malay 에서 4~13점 개선

Kupang Malay 라는 저자원 언어를 대상으로 LLM fine-tuning 을 제안한 논문입니다. 이중언어 사전의 어휘·의미 특징을 활용한 instruction 설계와 Continual Instruction Tuning(CIT) 이라는 반복 instruction 학습 패러다임을 도입해, 표준 instruction-tuned 모델보다 4~6점, NMT 및 다국어 LLM보다 10~13점 높은 성능을 달성했습니다. 대규모 병렬 데이터 없이도 저자원 언어 번역을 개선할 가능성을 보여준 점이 흥미롭네요.

저자원 언어 Kupang Malay 번역을 위해 LLM fine-tuning 전략을 제안한 논문입니다.

핵심 결론

  • 태스크Kupang Malay → Indonesian 번역에서 표준 instruction-tuned 모델 대비 BLEU 4~6점, NMT·다국어 LLM 대비 10~13점 향상.
  • 모델Lius 라는 이름의 fine-tuned LLM (base 모델은 명시되지 않음).

방법

  • Instruction 설계이중언어 사전에서 추출한 어휘·의미 특징을 instruction 에 포함시켜 모델이 저자원 언어 구조를 학습하도록 유도.
  • CITContinual Instruction Tuning — 여러 instruction set 을 순차적으로 학습시키는 방식으로, 단일 fine-tuning보다 일반화 성능이 높다고 합니다.

한계·조건

  • 언어Kupang Malay 단일 언어 대상이며, 다른 저자원 언어로의 일반화는 추가 실험이 필요.
  • 데이터병렬 데이터 규모가 작지만, 사전 기반 특징 설계에 수작업이 일부 들어간 점은 재현성에 주의해야 합니다.
  • 코드코드·데이터 공개 여부는 논문에서 확인되지 않았습니다.

편집자 한 줄

저자원 언어 번역에서 사전 정보를 instruction 에 녹인 접근은 실용적이지만, 사전의 품질과 커버리지에 민감할 수 있어 후속 연구가 필요해 보입니다.

  • #llm
  • #translation
  • #low-resource
  • #continual-instruction-tuning
  • #kupang-malay
haim
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —