News·2시간 전

정렬 연구: Preventative Steering, Inoculation Prompting 대비 우월한 특성 억제 성능

SPAR Research Fellowship 연구팀이 Inoculation Prompting(IP)과 Preventative Steering(PS)을 4가지 SFT 환경에서 비교했습니다. PS가 원치 않는 특성 억제에 더 강력하고, 조건부 정렬 오류가 적으며, 부정 스티어링을 통해 원하는 특성을 더 강하게 학습시킬 수 있음을 발견했습니다. 다만 PS는 선형 표현이 가능한 특성에만 적용 가능하고, 시스템 프롬프트보다 연산 비용이 높은 단점이 있습니다.

SPAR Research Fellowship 연구팀이 Inoculation Prompting과 Preventative Steering을 비교한 벤치마크 결과를 공개했습니다.

골자

비교 대상 — Inoculation Prompting(IP)과 Preventative Steering(PS)을 4가지 SFT 설정에서 평가.
주요 결과 — PS가 IP보다 원치 않는 특성 억제에 더 강력했으며, 조건부 정렬 오류도 적었습니다.
부정 스티어링 — PS는 특성 벡터를 음의 방향으로 스티어링(Negative PS)해 원하는 특성을 더 강하게 학습시킬 수 있었으나, IP의 부정 버전(Negative IP)은 대부분 실패했습니다.
구성 가능성 — 여러 스케일된 페르소나 벡터를 조합한 구성적 PS가 IP보다 세밀한 특성 균형 제어가 가능했습니다.

배경·맥락

IP는 파인튜닝 중 원치 않는 특성을 명시적으로 요청하는 프롬프트를 추가해 일반화를 방지하는 방식입니다.
PS는 활성화 공간에서 특성 벡터를 추출해 스티어링하는 방식으로, 선형 표현이 가능한 특성에만 적용 가능합니다.

한계 및 실용적 고려

PS의 요구사항 — 원치 않는 특성이 활성화 공간에서 선형 표현을 가져야 하며, 벡터 추출 및 튜닝 비용이 듭니다.
IP의 장점 — 시스템 프롬프트만 작성하면 되므로 연산 비용이 낮고, 선형 표현이 필요 없습니다.
프론티어 모델 — IP가 프론티어 모델 학습에 더 효과적일 가능성(부정 특성 억제나 능력 유지 측면)이 있습니다.

편집자 한 줄

PS의 부정 스티어링이 IP보다 강력한 건 흥미로운 포인트지만, 실용성 측에선 IP의 간편함이 여전히 매력적입니다.

#alignment
#preventative-steering
#inoculation-prompting
#sft
#research

LessWrong

원문 보기 →

정렬 연구: Preventative Steering, Inoculation Prompting 대비 우월한 특성 억제 성능

골자

배경·맥락

한계 및 실용적 고려

Comments