Papers·1주 전
FASTMIX: 단일 프록시 모델만으로 데이터 혼합 비율 자동 최적화 — 프리트레이닝·포스트트레이닝에서 평균 1.5% 성능 향상

Tencent Hunyuan 팀이 단일 프록시 모델만 학습하며 데이터 혼합 비율을 자동으로 찾는 FASTMIX 프레임워크를 공개했습니다. 혼합 비율 최적화를 이중 최적화 문제로 재정의하고, 각 소스의 loss 가중치와 동등함을 증명해 gradient 기반으로 효율적 탐색을 가능하게 한 점이 핵심입니다. 프리트레이닝과 포스트트레이닝 모두에서 기존 방법 대비 성능이 개선되었으며, 탐색 비용을 크게 줄였습니다. 단, 단일 프록시 모델(약 1B) 기준으로 검증되어 대규모 모델로의 일반화는 추가 확인이 필요합니다.
Tencent Hunyuan 팀이 단일 프록시 모델만으로 데이터 혼합 비율을 자동 최적화하는 FASTMIX를 제안했습니다.
핵심 결론
- 태스크 — 프리트레이닝 및 포스트트레이닝 데이터 혼합 비율 자동 탐색.
- 성능 — 프리트레이닝에서는 Pile 벤치마크 평균 perplexity 1.2% 개선, 포스트트레이닝에서는 MMLU 1.5% 향상.
- 비용 — 기존 최적화 방법 대비 탐색 비용을 90% 이상 절감.
방법
- 재정의 — 혼합 비율 최적화를 이중 최적화(bilevel optimization) 문제로 재정의.
- 동등성 증명 — 혼합 비율 최적화가 균일 소스 샘플링 하의 per-source loss 가중치 할당과 수학적으로 동등함을 증명.
- 반복 최적화 — 내부 루프에서 현재 혼합 비율로 모델 파라미터 업데이트, 외부 루프에서 검증 피드백으로 혼합 비율 업데이트.
한계·조건
- 프록시 규모 — 실험은 약 1B 파라미터 프록시 모델 기준으로 수행되어, 더 큰 모델로의 일반화는 추가 검증 필요.
- 데이터 소스 — 사용된 데이터 소스 수가 제한적(최대 10개)이며, 매우 많은 소스로 확장 시 안정성 미확인.
- 코드 — GitHub에 코드 공개 예정 (https://github.com/hrtan/fastmix).
편집자 한 줄
단일 프록시로 혼합 비율을 찾는 아이디어는 실용적이지만, 프록시와 타깃 모델 간의 scale gap이 클 때 최적 비율이 달라질 가능성은 염두에 둘 만합니다.
- #data-mixture
- #pretraining
- #post-training
- #tencent
- #optimization
Tencent Hunyuan