Papers·3개월 전

RoundPipe: 소비자 GPU 서버에서 LLM 파인튜닝 1.48~2.16배 가속 — weight binding 해소한 파이프라인 스케줄

RoundPipe는 소비자 GPU 서버에서 LLM 파인튜닝 시 발생하는 weight binding 문제를 해결한 새로운 파이프라인 스케줄입니다. GPU를 stateless 워커 풀로 간주하고 라운드로빈 방식으로 연산을 분배해 거의 제로 버블을 달성했습니다. 8x RTX 4090 환경에서 1.7B~32B 모델 기준 기존 대비 1.48~2.16배 속도 향상을 보였으며, Qwen3-235B 모델의 LoRA 파인튜닝을 31K 시퀀스 길이로 단일 서버에서 가능하게 했습니다. 오픈소스 Python 라이브러리로 공개되었습니다.

#pipeline-parallelism
#fine-tuning
#consumer-gpu
#llm
#roundpipe

Yibin Luo

원문 보기 →

RoundPipe: 소비자 GPU 서버에서 LLM 파인튜닝 1.48~2.16배 가속 — weight binding 해소한 파이프라인 스케줄

Comments