Papers·1개월 전

MERIT: 분산 instruction tuning 으로 136개 태스크 혼합 훈련 — Qwen2.5-VL-3B 8개 벤치 평균 54.3→57.0

NAVER AI Lab 팀이 gradient 간섭과 통신 병목을 동시에 해결하는 분산 instruction tuning 파이프라인 MERIT을 제안했습니다. PCA 기반 충돌 분할로 태스크 혼합물을 독립적으로 fine-tuning 한 후 token-weighted averaging 으로 병합하는 방식입니다. Qwen2.5-VL-3B 에서 136개 Vision-FLAN 태스크로 실험한 결과 8개 벤치마크 평균이 joint training 대비 54.3에서 57.0으로 상승했으며, 7B 모델과 1.6M 예제 혼합에서도 비슷한 성능을 보였습니다. 단, 이 방식은 shared flat basin 이 존재한다는 이론적 가정에 의존하며, 태스크 간 충돌이 극단적으로 큰 경우 효과가 제한될 수 있습니다.

NAVER AI Lab이 gradient 간섭과 통신 병목을 동시에 해결하는 분산 instruction tuning 파이프라인 MERIT을 공개했습니다.

핵심 결론

벤치 — Qwen2.5-VL-3B, 136개 Vision-FLAN 태스크, 8개 벤치마크 평균 54.3→57.0.
확장 — 7B 모델, 1.6M 예제·176개 소스 혼합에서도 joint training 을 능가하거나 동등.
Text-only FLAN 으로도 전이 가능.

방법

이론 — Shared flat basin 내에서 weight merging 이 curvature-weighted variance reduction 을 제공한다는 이론적 결과를 먼저 유도.
PCA 충돌 분할 — 데이터셋 간 gradient conflict 를 PCA 로 분석해 고곡률 방향을 따라 혼합물을 분할, 각 파티션을 독립 fine-tuning.
병합 — Token-weighted averaging 으로 한 번 병합 — inter-partition 통신이 전혀 없음.

한계·조건

가정 — Shared flat basin 존재에 의존 — 극단적 conflict 에서는 효과 제한 가능.
코드 — GitHub 공개 (https://github.com/naver-ai/merit).

편집자 한 줄

분산 학습의 통신 비용을 거의 0으로 줄이면서 성능 향상까지 얻은 점이 인상적입니다. 다만 PCA 분석에 추가 연산이 들어가므로, 태스크 수가 적을 때는 오버헤드가 상대적으로 클 수 있겠네요.

#instruction-tuning
#multimodal
#merging
#pca
#naver

Minsik Choi

원문 보기 →

MERIT: 분산 instruction tuning 으로 136개 태스크 혼합 훈련 — Qwen2.5-VL-3B 8개 벤치 평균 54.3→57.0

핵심 결론

방법

한계·조건

Comments