Papers·2개월 전

UniSteer: 텍스트 조건부 활성화 흐름 매칭으로 LLM 제어 통합

ShanghaiTech 연구팀이 텍스트 조건부 활성화 흐름 매칭 모델 UniSteer를 제안했습니다. 기존의 고정된 개입 방식과 달리, 자연어 조건에서 잔차 스트림 활성화의 조건부 분포를 학습해 행동 제어, 진실성 조정, 세부 개념 제어, 다중 제약 지시 수행 등 다양한 태스크를 단일 모델로 처리합니다. 실험은 Llama-2, Llama-3, Mistral 등 세 LLM에서 수행되었으며, 각 태스크에서 기존 방법과 유사하거나 더 나은 성능을 보였습니다. 다만 학습에 추가 연산이 필요하고, 활성화 차원이 큰 모델에서는 확장성 검증이 더 필요합니다.

ShanghaiTech 연구팀이 텍스트 조건부 활성화 흐름 매칭 모델 UniSteer를 제안했습니다.

핵심 결론

태스크 — 행동 제어, 진실성 조정, 세부 개념 제어, 다중 제약 지시 수행, 활성화 공간 분류 등 5가지 태스크에서 단일 모델로 통합 처리.
성능 — 기존 방법(예: ITI, CCST) 대비 진실성 조정에서 유사하거나 더 나은 정확도, 다중 제약 지시에서 더 높은 준수율.

방법

핵심 아이디어 — 자연어 조건에서 잔차 스트림 활성화의 조건부 분포를 학습하는 유니버설 속도장(velocity field)을 구축.
추론 과정 — 소스 활성화를 잠재 상태로 부분 수송한 후, 타겟 텍스트 조건 하에 재생성하여 frozen LLM에 주입.
분류에도 동일 모델 사용 — 재구성 에너지가 가장 낮은 텍스트 레이블을 선택.

한계·조건

연산량 — 학습에 추가적인 흐름 매칭 학습 비용이 발생하며, 추론 시에도 다중 스텝 수송이 필요.
확장성 — 실험은 7B~13B 규모 모델에 한정, 더 큰 모델에서의 활성화 차원 증가에 따른 확장성 검증 필요.
코드 — 논문에서 코드 공개 여부는 명시되지 않음.

편집자 한 줄

활성화 제어 방법론을 하나의 조건부 생성 문제로 통합한 점이 깔끔합니다. 다만 추론 오버헤드가 실용성에 얼마나 영향을 줄지 지켜볼 필요가 있네요.

#llm
#activation-steering
#flow-matching
#shanghaitech

ShanghaiTech University

원문 보기 →

UniSteer: 텍스트 조건부 활성화 흐름 매칭으로 LLM 제어 통합

핵심 결론

방법

한계·조건

Comments