Papers·5일 전
UCSD, 데이터 부족 시대 AR 사전학습에 데이터 증강 도입 — 수백 에폭 학습 가능

UCSD 연구팀이 데이터가 제한된 환경에서 AR 사전학습의 과적합을 막기 위해 세 가지 데이터 증강 기법을 제안했습니다. 토큰 수준 노이즈(랜덤 마스킹·대체), 시퀀스 순열(우좌 예측·Fill-in-the-Middle), 타겟 오프셋 예측(x_{t+i})을 조합해 수백 에폭 동안 검증 손실을 낮출 수 있음을 보였습니다. 개별 기법 중 랜덤 토큰 대체가 가장 효과적이었으며, 증강 조합 시 최저 손실을 기록했습니다.
데이터 증강으로 AR 사전학습의 데이터 비효율성을 완화하고, 제한된 말뭉치에서도 수백 에폭 생산적 학습이 가능함을 보였습니다.
핵심 결론
- 태스크 — 데이터 제약 환경에서 AR 사전학습의 과적합을 완화하는 데이터 증강 기법 탐색.
- 결과 — 개별 증강 모두 검증 손실을 낮췄으며, 세 가지 범주 조합 시 최저 손실 달성.
- 의의 — 데이터 부족 시대에 AR 사전학습의 생산적 다중 에폭 학습을 가능하게 하는 방안.
방법
- 토큰 수준 노이즈 — 입력 토큰에 마스킹 또는 랜덤 대체를 적용해 모델이 노이즈에 강건해지도록 유도.
- 시퀀스 순열 — 우좌 예측이나 Fill-in-the-Middle 같은 순서 변형으로 다양한 예측 패턴 학습.
- 타겟 오프셋 — x_{t+i} (i>1) 예측으로 더 먼 미래 토큰을 예측하게 해 과적합 지연.
한계·조건
- 환경 — 실험은 특정 규모의 모델과 데이터셋에서 수행되었으며, 대규모 확장 시 효과 검증 필요.
- 코드 공개 — GitHub(https://github.com/michaelchen-lab/data-augmentations-for-pretraining)에 코드와 데이터 공개.
편집자 한 줄
데이터 증강이 사전학습 단계에서도 유효하다는 점을 체계적으로 보여준 연구입니다. 다만 실제 대규모 학습 파이프라인에 통합할 때의 계산 오버헤드가 추가 검토되어야 할 부분입니다.
- #data-augmentation
- #pretraining
- #overfitting
- #ucsd
- #autoregressive
University of California at San Diego