Papers·1개월 전

MergePipe: I/O 예산 기반 LLM 가중치 병합 — 최대 11배 속도 향상

홍콩폴리텍대 연구팀이 LLM 가중치 병합 시 I/O 예산을 명시적으로 고려하는 MergePipe를 제안했습니다. 기존의 전체 가중치 읽기 대신, 예산 내에서 전문가 델타 블록 접근을 최적화해 Qwen과 Llama 병합 작업에서 최대 11배 속도 향상을 달성했습니다. 전체 읽기 대비 파라미터 오차는 10^{-3} 수준이며, 다운스트림 벤치마크에서 단조 성능 저하가 없음을 확인했습니다.

홍콩폴리텍대 연구팀이 I/O 예산을 고려한 LLM 가중치 병합 프레임워크 MergePipe를 공개했습니다.

핵심 결론

속도 — Qwen 및 Llama 병합 워크로드에서 expert-read I/O를 최대 10분의 1로 줄이고, 최대 11배 속도 향상을 달성했습니다.
정확도 — 전체 읽기 병합 대비 파라미터 편차가 10^{-3} 수준이며, 다운스트림 벤치마크에서 단조 성능 저하가 관찰되지 않았습니다.

방법

예산 인식 — 병합 연산을 전문가 접근 집합 문제로 재정의해, 명시적 I/O 예산 하에 접근할 델타 블록을 결정합니다.
실행 계획 — 파라미터 블록을 인덱싱하고 결정적 접근 계획을 수립하며, 재현 가능한 매니페스트로 예산 내 병합을 실행합니다.
고정 계수 가산 연산자에 대해 생략된 업데이트 오차가 생략된 델타의 노름으로 제한됨을 증명했습니다.

한계·조건

가정 — 공유 가중치 좌표계를 가진 체크포인트 패밀리와 고정 계수 가산 연산자에 특화되어 있습니다.
코드 — 현재 논문 및 부록만 공개되었으며, 코드는 추후 공개 예정입니다.

편집자 한 줄

I/O 병목이 지배적인 LLM 병합 시나리오에서 실용적인 접근입니다. 예산에 따른 정확도-속도 트레이드오프를 체계적으로 탐색할 수 있다는 점이 흥미롭네요.

#model-merging
#llm
#io-optimization
#polyu

The Hong Kong Polytechnic University

원문 보기 →

MergePipe: I/O 예산 기반 LLM 가중치 병합 — 최대 11배 속도 향상

핵심 결론

방법

한계·조건

Comments