← Back to feed
News·2주 전

두 신경망의 기능적 유사성을 가중치만으로 측정하는 텐서 유사도

두 신경망의 기능적 유사성을 가중치만으로 측정하는 텐서 유사도

LessWrong 에 게재된 연구로, 두 신경망이 모든 입력에 대해 얼마나 기능적으로 유사한지를 가중치만으로(데이터 없이) 계산하는 텐서 유사도 방법을 제안합니다. 코사인 유사도의 일반화이며, 텐서 네트워크를 사용해야 하는 제약이 있습니다. 기존 행렬 유사도(대칭성에 민감)나 행동 유사도(분포 외 차이를 놓침)보다 원칙적이며, 백도어 탐지 작업에서 효과를 입증했습니다.

두 신경망의 기능적 유사성을 가중치만으로 측정하는 텐서 유사도 방법이 제안되었습니다.

골자

  • 방법텐서 네트워크를 이용해 두 신경망의 가중치 공간 내적(텐서 유사도)을 계산하며, 이는 가우시안 입력에 대한 활성화의 기대 내적과 같습니다.
  • 기존 대비행렬 유사도는 대칭성(permutation/rescaling)에 민감하고, 행동 유사도는 분포 외 차이를 놓치는 반면, 텐서 유사도는 이를 해결합니다.
  • 효율성재귀 알고리즘으로 전체 텐서를 효율적으로 계산할 수 있습니다.

배경·맥락

  • 텐서 변환기 변종이 이미 성능이 좋다는 기존 연구(MLP, Attention)를 바탕으로, 이번 연구는 해석 가능성에 초점을 맞춥니다.
  • 백도어 탐지SVHN 데이터셋에서 중독된 데이터로 파인튜닝할 때, 텐서 유사도가 백도어 학습을 체크포인트별로 포착합니다.

자금 용처·향후

  • 향후텐서 유사도를 다양한 신경망 아키텍처와 실제 보안 태스크에 적용하는 방안이 연구될 것으로 보입니다.

편집자 한 줄

데이터 없이 가중치만으로 기능적 유사성을 측정한다는 점이 흥미롭습니다. 백도어 탐지 외에도 모델 병합이나 전이 학습에도 응용될 여지가 있어 보입니다.

  • #neural-networks
  • #interpretability
  • #tensor-similarity
  • #backdoor-detection
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —