News·1개월 전

Apollo Research, 합성 문서 파인튜닝(SDF) 실전 노하우 공유

Apollo Research 가 합성 문서 파인튜닝(SDF)을 자주 사용하며 얻은 팁과 트릭을 공개했습니다. SDF는 LLM이 생성한 문서로 모델을 파인튜닝해 특정 사실이나 믿음을 주입하는 기법으로, Slocum et al. (2025)의 레시피를 따라 universe 정의 → 사실 추출 → 문서 생성 → 파인튜닝 순서로 진행됩니다. 문서 생성에는 주로 Claude Sonnet 4.6을 사용했으며, 작은 규모로 시작해 반복 개선하는 방식을 권장합니다.

Apollo Research 가 합성 문서 파인튜닝(SDF)을 활용하며 얻은 실전 노하우를 정리했습니다.

골자

기법 — SDF는 LLM 생성 문서로 모델을 파인튜닝해 타겟 사실을 주입하는 지식 편집 기술입니다.
파이프라인 — Universe 정의 → 사실 추출 → 문서 생성 → 파인튜닝 순서로, Slocum et al. (2025) 레시피를 따릅니다.
생성 모델 — 문서 생성에는 주로 Claude Sonnet 4.6 (batch API)을 사용했으며, 품질이 좋았다고 합니다.

배경·맥락

SDF는 주입된 믿음이 진짜 지식처럼 행동하고, 관련 맥락에 일반화되며, 내부 표현도 유사해지는 특성이 있습니다.
참고 — safety-research/false-facts 레포지토리와 Slocum et al. (2025) 논문을 기반으로 했습니다.

팁·트릭

작게 시작 — 처음에는 5개 문서만 생성해 읽어보고, 문제점을 찾아 universe 설명과 프롬프트를 반복 개선하라고 조언합니다.
품질 필터링 — 최종 데이터셋에 모델 기반 품질 필터링을 한 번 더 적용하는 것도 도움이 된다고 합니다.

편집자 한 줄

SDF는 실제 연구에 사용되는 구체적인 기법이라, AI 안전 연구자에게 유용한 실전 자료입니다.

#apollo-research
#synthetic-document-finetuning
#knowledge-editing
#llm

LessWrong

원문 보기 →

Apollo Research, 합성 문서 파인튜닝(SDF) 실전 노하우 공유

골자

배경·맥락

팁·트릭

Comments