News·4시간 전
Introspection Adapters 우회 공격 발견 — 위협 모델 차이가 핵심
연구진이 Introspection Adapters(IA)를 우회하는 공격을 시연했습니다. 공격자는 모델 가중치를 제어할 수 있을 때, 출력을 유지하면서 감사자가 보정한 기저(basis)를 이동시키는 저비용 변환을 적용해 IA를 무력화합니다. 흥미로운 점은 원저자 Shenoy 팀이 상정한 위협 모델과 공격자의 위협 모델이 달랐다는 점입니다. Shenoy 팀은 모델 제공자의 파인튜닝 API 시나리오를 가정한 반면, 공격자는 모델을 배포하는 기업이 외부 파인튠을 검사하는 상황을 상정했습니다.
Introspection Adapters(IA)를 우회하는 공격이 발견됐습니다. 핵심은 두 연구진이 서로 다른 위협 모델을 적용했다는 점입니다.
골자
- 공격 방식 — 모델 가중치를 제어한 공격자가 출력을 유지하면서 감사자 보정 기저를 이동시키는 저비용 변환을 적용합니다.
- 영향 — IA가 변환된 가중치에서 잘못된 기저를 기준으로 작동해 숨겨진 행동을 감지하지 못합니다.
- 관찰 불가 — 모델 행동에는 눈에 띄는 변화가 없어 감사자가 공격을 알아채기 어렵습니다.
배경·맥락
- Shenoy et al.(2026)의 IA는 악의적 파인튠을 탐지하는 기술로 제안됐습니다.
- 위협 모델 차이 — 공격 연구진은 기업이 외부 파인튠을 검사하는 시나리오를, 원저자 Shenoy 팀은 모델 제공자의 파인튜닝 API 시나리오를 상정했습니다.
- 두 시나리오에서 공격자의 가중치 제어 정도가 달라, 공격의 실효성이 갈립니다.
자금 용처·향후
- 공격 코드와 논문이 공개됐습니다.
- 시사점 — 보안 기술 평가 시 위협 모델의 명시적 합의가 중요함을 보여주는 사례입니다.
편집자 한 줄
두 연구진이 서로 다른 위협 모델을 가정한 채 각자의 공격과 방어를 발표한 점이 인상적입니다. 보안 커뮤니티에서 위협 모델을 명확히 공유하는 관행이 필요해 보입니다.
- #introspection-adapters
- #adversarial-attacks
- #threat-model
- #ai-safety
LessWrong