News·2시간 전
정렬 연구: Preventative Steering, Inoculation Prompting 대비 우월한 특성 억제 성능

SPAR Research Fellowship 연구팀이 Inoculation Prompting(IP)과 Preventative Steering(PS)을 4가지 SFT 환경에서 비교했습니다. PS가 원치 않는 특성 억제에 더 강력하고, 조건부 정렬 오류가 적으며, 부정 스티어링을 통해 원하는 특성을 더 강하게 학습시킬 수 있음을 발견했습니다. 다만 PS는 선형 표현이 가능한 특성에만 적용 가능하고, 시스템 프롬프트보다 연산 비용이 높은 단점이 있습니다.
SPAR Research Fellowship 연구팀이 Inoculation Prompting과 Preventative Steering을 비교한 벤치마크 결과를 공개했습니다.
골자
- 비교 대상 — Inoculation Prompting(IP)과 Preventative Steering(PS)을 4가지 SFT 설정에서 평가.
- 주요 결과 — PS가 IP보다 원치 않는 특성 억제에 더 강력했으며, 조건부 정렬 오류도 적었습니다.
- 부정 스티어링 — PS는 특성 벡터를 음의 방향으로 스티어링(Negative PS)해 원하는 특성을 더 강하게 학습시킬 수 있었으나, IP의 부정 버전(Negative IP)은 대부분 실패했습니다.
- 구성 가능성 — 여러 스케일된 페르소나 벡터를 조합한 구성적 PS가 IP보다 세밀한 특성 균형 제어가 가능했습니다.
배경·맥락
- IP는 파인튜닝 중 원치 않는 특성을 명시적으로 요청하는 프롬프트를 추가해 일반화를 방지하는 방식입니다.
- PS는 활성화 공간에서 특성 벡터를 추출해 스티어링하는 방식으로, 선형 표현이 가능한 특성에만 적용 가능합니다.
한계 및 실용적 고려
- PS의 요구사항 — 원치 않는 특성이 활성화 공간에서 선형 표현을 가져야 하며, 벡터 추출 및 튜닝 비용이 듭니다.
- IP의 장점 — 시스템 프롬프트만 작성하면 되므로 연산 비용이 낮고, 선형 표현이 필요 없습니다.
- 프론티어 모델 — IP가 프론티어 모델 학습에 더 효과적일 가능성(부정 특성 억제나 능력 유지 측면)이 있습니다.
편집자 한 줄
PS의 부정 스티어링이 IP보다 강력한 건 흥미로운 포인트지만, 실용성 측에선 IP의 간편함이 여전히 매력적입니다.
- #alignment
- #preventative-steering
- #inoculation-prompting
- #sft
- #research
LessWrong