News·4일 전
VFUSE: 단백질 모델의 위험한 설계를 해석 가능하게 감지하는 SAE 기반 감사

LessWrong 블로그에 VFUSE(Virulent Feature Understanding with Sparse autoEncoders)가 소개되었습니다. RoseTTAFold3와 RFDiffusion3의 확산 트랜스포머 활성에 SAE를 훈련해 위험한 단백질 설계를 감지하는 특성을 찾아냈습니다. SAE 잠재 공간에서 선형 프로브가 원래 표현보다 유해 설계를 더 잘 탐지했으며, 일부 단일 의미 특성은 AUROC 0.84에 달했습니다. 전원자 확산 모델에 SAE를 적용한 첫 사례이며, 단백질 설계 모델의 특성 수준 독성 감사를 처음으로 시도한 연구입니다.
생성형 단백질 모델의 위험을 해석 가능하게 감지하는 SAE 기반 접근법 VFUSE가 공개되었습니다.
골자
- 방법 — Matryoshka Batch TopK SAE를 RFDiffusion3와 RoseTTAFold3의 확산 트랜스포머 활성에 훈련.
- 데이터 — UniProt, SafeProtein, ToxinPred3에서 1475쌍의 길이-매칭된 양성/유해 단백질 샘플링.
- 성능 — SAE 잠재 공간의 선형 프로브가 원래 표현보다 유해 설계 탐지 성능 향상; 일부 단일 의미 특성은 AUROC 0.84.
배경·맥락
- LLM에 비해 단백질 모델 해석 가능성 연구는 초기 단계로, InterProt, FoldSAE 등이 선행 연구.
- 이번 연구는 전원자 확산 모델에 SAE를 적용한 첫 사례이며, 단백질 설계 모델의 특성 수준 독성 감사를 최초로 시도.
자금 용처·향후
- 연구는 안전하고 해석 가능한 단백질 설계를 위한 길을 열며, 향후 더 큰 모델과 다양한 독성 특성으로 확장 가능.
편집자 한 줄
단백질 모델의 안전성 감사에 SAE를 적용한 점이 신선합니다. LLM 외 도메인으로 해석 가능성 연구가 확장되는 흐름을 보여주네요.
- #mechanistic-interpretability
- #sae
- #protein-design
- #safety
- #rfdiffusion3
LessWrong