Papers·1개월 전

LLM 내부 표현에서 사회적 역할의 세분성(granularity)이 주요 기하 축으로 확인 — Qwen3-8B에서 분산의 52.6% 설명

홍콩대 연구진이 LLM의 내부 은닉 상태에서 사회적 역할의 세분성(granularity)이 지배적인 기하 축임을 밝혔습니다. '거시-미시 역할 은닉 상태 차이'로 정의한 세분성 축이 Qwen3-8B의 역할 표현 공간에서 PC1과 코사인 유사도 0.972로 정렬되며 분산의 52.6%를 설명합니다. 75개 사회적 역할(5단계 세분성)과 91,200개 조건부 응답을 분석한 결과, 역할 투영값이 모든 단계에서 단조 증가하고 층·프롬프트 변형·데이터 분할에 걸쳐 안정적이며 Llama-3.1-8B-Instruct로 전이됩니다. 또한 활성 조종(activation steering)을 통해 응답의 세분성을 예측 방향으로 이동시킬 수 있었으나(Llama에서 5점 척도 2.00→3.17), 모델 간 제어 가능성에 차이가 있어 각 모델의 기본 작동 체계에 의존적입니다.

#llm
#social-role
#representation
#granularity
#university-of-hong-kong

University of Hong Kong

원문 보기 →

LLM 내부 표현에서 사회적 역할의 세분성(granularity)이 주요 기하 축으로 확인 — Qwen3-8B에서 분산의 52.6% 설명

Comments