News·1개월 전

두 신경망의 기능적 유사성을 가중치만으로 측정하는 텐서 유사도

LessWrong 에 게재된 연구로, 두 신경망이 모든 입력에 대해 얼마나 기능적으로 유사한지를 가중치만으로(데이터 없이) 계산하는 텐서 유사도 방법을 제안합니다. 코사인 유사도의 일반화이며, 텐서 네트워크를 사용해야 하는 제약이 있습니다. 기존 행렬 유사도(대칭성에 민감)나 행동 유사도(분포 외 차이를 놓침)보다 원칙적이며, 백도어 탐지 작업에서 효과를 입증했습니다.

두 신경망의 기능적 유사성을 가중치만으로 측정하는 텐서 유사도 방법이 제안되었습니다.

골자

방법 — 텐서 네트워크를 이용해 두 신경망의 가중치 공간 내적(텐서 유사도)을 계산하며, 이는 가우시안 입력에 대한 활성화의 기대 내적과 같습니다.
기존 대비 — 행렬 유사도는 대칭성(permutation/rescaling)에 민감하고, 행동 유사도는 분포 외 차이를 놓치는 반면, 텐서 유사도는 이를 해결합니다.
효율성 — 재귀 알고리즘으로 전체 텐서를 효율적으로 계산할 수 있습니다.

배경·맥락

텐서 변환기 변종이 이미 성능이 좋다는 기존 연구(MLP, Attention)를 바탕으로, 이번 연구는 해석 가능성에 초점을 맞춥니다.
백도어 탐지 — SVHN 데이터셋에서 중독된 데이터로 파인튜닝할 때, 텐서 유사도가 백도어 학습을 체크포인트별로 포착합니다.

자금 용처·향후

향후 — 텐서 유사도를 다양한 신경망 아키텍처와 실제 보안 태스크에 적용하는 방안이 연구될 것으로 보입니다.

편집자 한 줄

데이터 없이 가중치만으로 기능적 유사성을 측정한다는 점이 흥미롭습니다. 백도어 탐지 외에도 모델 병합이나 전이 학습에도 응용될 여지가 있어 보입니다.

#neural-networks
#interpretability
#tensor-similarity
#backdoor-detection

LessWrong

원문 보기 →

두 신경망의 기능적 유사성을 가중치만으로 측정하는 텐서 유사도

골자

배경·맥락

자금 용처·향후

Comments