News·4시간 전
Anthropic, Claude 정렬에 SDF 학습이 RL보다 효과적 — 커버리지 기반 검증 제안

Anthropic이 Claude 정렬 훈련에서 RL 기반 행동 형성보다 프리트레이닝 스타일의 next-token 학습(SDF)이 효과적임을 발견했습니다. SDF는 헌법 문서와 가상 스토리를 통해 원칙을 가르쳐 오정렬을 3배 이상 줄였으며, 그 효과는 RL 훈련 후에도 유지되었습니다. 이에 착안해, 자율주행 분야에서 쓰이는 커버리지 기반 검증 방법론을 정렬 연구에 도입하자는 제안이 나왔습니다.
Anthropic의 Teaching Claude Why 실험에서 SDF가 RL보다 정렬에 효과적임을 확인하고, 자율주행의 커버리지 기반 방법론을 정렬에 접목하자는 제안입니다.
골자
- 발견 — Anthropic은 Claude 훈련 시 행동 시연(behavioral demonstrations)은 효과가 거의 없었지만, 헌법 문서와 가상 스토리를 next-token 예측(SDF)으로 학습시키자 오정렬이 3배 이상 감소했습니다.
- 지속성 — SDF로 얻은 정렬 개선은 이후 RL 훈련에서도 유지되었습니다.
- 제안 — 자율주행 분야에서 쓰이는 커버리지 기반 검증(coverage-driven verification) 방법론을 정렬 연구에 도입하자는 주장입니다.
배경·맥락
- NVIDIA의 Alpamayo AR1도 자율주행에서 모방 학습(imitation learning)이 안전-critical 장면에 충분하지 않다는 유사한 결론을 내렸습니다.
- SDF는 정렬 부담을 프리트레이닝 스타일 학습으로 옮겨, RL 기반 정렬 형성의 의존도를 줄입니다.
자금 용처·향후
- 다음 단계 — 커버리지 맵을 명시적으로 정의하고, 이를 통해 정렬 훈련 데이터의 다양성을 체계적으로 확보하는 방법을 제안합니다.
- 장기 목표 — SDF의 효과가 장기 RL 훈련 후에도 지속되도록 하는 것이 목표입니다.
편집자 한 줄
자율주행의 검증 방법론을 정렬에 가져오는 발상은 흥미롭지만, 커버리지 맵을 어떻게 정의할지가 실용성의 관건이 될 것 같습니다.
- #anthropic
- #alignment
- #sdf
- #coverage-driven-verification
- #claude
LessWrong