← Back to feed
Papers·3일 전

GLM 내부 분석 — 그래프 토큰의 활성 이상치가 정보 전달과 무관

GLM 내부 분석 — 그래프 토큰의 활성 이상치가 정보 전달과 무관

Aikyam Lab 연구진이 Graph Language Model(GLM)에서 LLM이 그래프 토큰을 어떻게 처리하는지 분석한 결과, 그래프 싱크 토큰이 활성화 값 이상치로 나타나지만 그래프 정보의 주요 전달체는 아니라는 점을 밝혔습니다. 그래프 구조를 토큰화한 표현이 토폴로지 인식 내부 표현으로 자연스럽게 형성되지 않으며, 활성 수준의 현저성과 그래프 의미적 유용성 사이에 괴리가 있음을 보였습니다. 이는 기존 그래프 토큰 구성, 배치, 정렬 메커니즘의 한계를 시사합니다.

GLM이 그래프 구조를 토큰화해 LLM에 주입할 때, 내부적으로 그래프 토큰이 실제로 의미 있는 구조 정보를 전달하는지 분석한 연구입니다.

핵심 결론

  • 주요 발견그래프 싱크 토큰은 일부 은닉 차원에서 거대한 활성화 값을 보이는 이상치지만, 이 현저성이 그래프 정보 활용과 동일하지 않습니다.
  • 의미이러한 토큰이 쿼리 토큰의 주의를 가장 많이 받지도 않으며, 가지치기·재배치·교체 실험에서도 다운스트림 예측에 가장 중요한 토큰이 아닙니다.

방법

  • 분석 대상대표적인 GLM 아키텍처에서 그래프 토큰의 내부 현저성(saliency)을 활성화 값, 주의 가중치, 프루닝 영향 등 여러 각도에서 측정했습니다.
  • 그래프 싱크 토큰은 초기 토큰 위치에 편향되어 나타나며, 이는 언어·비전-언어 모델의 classical attention sink와 유사하지만 기능은 다릅니다.

한계·조건

  • 범위분석은 특정 GLM 아키텍처에 국한되며, 다른 그래프 토큰화 방식이나 LLM 백본에서는 결과가 달라질 수 있습니다.
  • 코드논문은 공개되었으나 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

GLM이 그래프를 '이해'한다는 주장에 대해 내부 표현의 실체를 파고든 점이 흥미롭습니다. 그래프 토큰 설계의 근본적인 재고가 필요할지도 모르겠네요.

  • #graph-language-model
  • #llm-interpretability
  • #graph-tokens
  • #attention-sinks
Aikyam Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —