Papers·3개월 전

BARRED: 합성 데이터로 맞춤형 guardrail 학습 — 소형 모델이 GPT-4o 능가

Plurai 팀이 맞춤형 guardrail 구축을 위해 합성 데이터를 생성하는 BARRED 프레임워크를 공개했습니다. 도메인을 차원 분해해 다양성을 확보하고, 다중 에이전트 토론으로 레이블 정확도를 검증한 후 소형 언어 모델을 미세조정합니다. 실험 결과, 이 방식으로 학습된 소형 모델이 GPT-4o, Claude 3.5 Sonnet 등 최고 수준의 독점 LLM과 전용 guardrail 모델을 일관되게 능가했습니다. 단, 실험은 특정 정책 집합에 국한되었고, 생성된 합성 데이터의 도메인 범위가 성능에 큰 영향을 미친다는 한계가 있습니다.

#guardrails
#synthetic-data
#alignment
#plurai

Plurai

원문 보기 →

BARRED: 합성 데이터로 맞춤형 guardrail 학습 — 소형 모델이 GPT-4o 능가

Comments