← Back to feed
News·4시간 전

DiffusionGemma 투명성 감사 — 변수는 해석 가능하나 알고리즘은 불투명

DiffusionGemma 투명성 감사 — 변수는 해석 가능하나 알고리즘은 불투명

GDM 해석 가능성 팀과 텍스트 확산 팀이 DiffusionGemma의 투명성을 감사했습니다. 변수 투명성은 Gemma와 유사하나, 알고리즘 투명성은 확산 모델 특성상 낮습니다. 확산 모델은 모든 토큰을 동시에 생성해 토큰 간 인과 관계가 불명확하기 때문입니다.

GDM의 텍스트 확산 모델 DiffusionGemma가 기존 Gemma만큼 투명한지 감사한 결과가 나왔습니다.

골자

  • 감사 대상DiffusionGemma, GDM의 새 텍스트 확산 모델.
  • 주요 결과DiffusionGemma는 Gemma보다 유의미하게 덜 투명하지는 않습니다.
  • 변수 투명성중간 벡터에 logit lens를 적용하고 해석 불가 정보를 제거해도 성능이 유지되어, 변수는 해석 가능함을 확인했습니다.

배경·맥락

  • 투명성 구분변수 투명성(스냅샷 이해)과 알고리즘 투명성(과정 재구성)을 구분했습니다.
  • 알고리즘 투명성확산 모델은 모든 토큰을 동시에 생성하므로 토큰 간 인과 관계가 불명확해, 기본적으로 알고리즘 투명성이 낮습니다.
  • 자기회귀 모델은 토큰 순서대로 추론하므로 각 토큰 생성 시점의 상태를 알 수 있어 해석이 용이합니다.

편집자 한 줄

변수는 해석 가능하지만 알고리즘을 이해하는 것은 별개라는 점을 명확히 한 점이 인상적입니다.

  • #diffusiongemma
  • #interpretability
  • #transparency
  • #gdm
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —