Papers·1개월 전

MIRA: 소스 인식 데이터 필터링으로 코드 중간 학습 효율 2배 향상

MIRA는 LLM 중간 학습(mid-training) 단계에서 데이터 선택을 위한 소스 인식 필터링 프레임워크로, 21개 소스·5개 그룹의 코드 데이터를 대상으로 9개 코드 벤치마크에서 전체 데이터 사용 대비 절반 토큰만으로 동등 성능을 달성했습니다. 핵심은 각 소스 그룹에 맞는 평가 루브릭을 자동 발견하고 이를 스케일러블 스코어러로 증류하는 self-anchored rubric discovery 방식입니다. 단, 코드 도메인에 특화된 실험이라 일반 텍스트 중간 학습으로의 일반화는 추가 검증이 필요합니다.

중간 학습 데이터 선택을 위한 소스 인식 필터링 프레임워크 MIRA가 코드 벤치마크에서 전체 데이터 대비 절반 토큰으로 동등 성능을 냈습니다.

핵심 결론

벤치 — HumanEval, MBPP, CodeContests 등 9개 코드 벤치마크에서 full-corpus 대비 평균 0.3% 내외 성능 유지.
효율 — 사용 토큰 수를 절반으로 줄이면서도 성능 저하 없이 중간 학습 완료.

방법

self-anchored rubric — 소스 그룹별로 LLM이 자체 평가 기준을 생성하고, 이를 바탕으로 데이터를 점수화하는 필터링.
증류 — 발견된 루브릭을 작은 스코어러 모델로 증류하여 전체 코퍼스에 스케일링 가능하게 만든 점이 특징입니다.

한계·조건

도메인 — 코드 중심 중간 학습에 한정된 실험 — 일반 텍스트나 다른 도메인에서의 효과는 미확인.
재현성 — 코드와 데이터셋은 공개 예정이나 현재는 논문만 열람 가능.

편집자 한 줄

중간 학습 데이터 선택 문제를 '소스별 맞춤 루브릭'으로 푼 발상이 깔끔합니다. 코드 외 도메인으로 확장된다면 범용 파이프라인으로 자리잡을 수도 있겠네요.

#data-selection
#mid-training
#llm
#code
#mira

Haowen Wang

원문 보기 →

MIRA: 소스 인식 데이터 필터링으로 코드 중간 학습 효율 2배 향상

핵심 결론

방법

한계·조건

Comments