Papers·1개월 전

DOMINO: 귀납적 도메인 데이터 합성 프레임워크 — Pass@1 최대 4.63% 향상

Tong Ye 연구팀이 도메인 특성을 명시적으로 설명하기 어려운 상황에서도 참조 샘플만으로 도메인 표현을 학습해 합성 데이터를 생성하는 DOMINO 프레임워크를 제안했습니다. 대조적 분리 목적 함수를 통해 도메인 패턴과 샘플 노이즈를 분리하며, 이론적으로 합성 데이터 분포의 지지 집합을 확장해 다양성을 보장합니다. 코딩 벤치마크에서 instruction-tuned 백본 대비 Pass@1 정확도를 최대 4.63% 개선했으나, 참조 샘플의 품질에 민감할 가능성이 있습니다.

도메인 특성을 자연어로 설명하기 어려운 상황에서도 참조 예제만으로 합성 데이터를 생성하는 귀납적 프레임워크 DOMINO가 공개되었습니다.

핵심 결론

태스크 — 도메인 특정 합성 데이터 생성 — 참조 샘플만으로 도메인을 정의.
벤치마크 — 코딩 벤치마크(예: HumanEval, MBPP)에서 Pass@1 최대 4.63% 향상.
백본 — instruction-tuned LLM(예: CodeLlama-7B-Instruct) 기반.

방법

귀납적 패러다임 — 기존 연역적 방식(자연어 도메인 설명 + 프롬프트 엔지니어링)과 달리, 참조 예제만으로 도메인 표현을 학습.
대조적 분리 — 프롬프트 튜닝에 대조적 분리 목적 함수를 추가해 도메인 패턴과 샘플별 노이즈를 분리.
이론적 보장 — 합성 데이터 분포의 지지 집합이 참조 분포보다 넓어져 다양성이 증가함을 증명.

한계·조건

참조 품질 — 참조 샘플의 품질과 다양성에 성능이 크게 의존할 가능성이 있습니다.
벤치 범위 — 코딩 도메인에 한정된 실험 — 다른 도메인(의료, 법률 등)에서의 일반화는 추가 검증 필요.
코드 공개 — 현재 코드는 공개되지 않았으며, 재현성을 위해 향후 공개가 필요합니다.

편집자 한 줄

도메인 설명이 어려운 실제 시나리오(예: 사내 코드 스타일, 특허 문서)에서 유용할 수 있겠네요.

#data-synthesis
#domain-adaptation
#coding
#prompt-tuning

Tong Ye

원문 보기 →

DOMINO: 귀납적 도메인 데이터 합성 프레임워크 — Pass@1 최대 4.63% 향상

핵심 결론

방법

한계·조건

Comments