Papers·6일 전
USC-ISI, 오픈소스 LLM 정치적 표현 범위(Overton Window) 측정 프레임워크 — 30+ 모델에서 좌편향·크기별 위축 확인

USC Information Sciences Institute 팀이 오픈소스 LLM의 정치적 영향력 캠페인 취약성을 평가하기 위해 Overton Window(OW) 측정 프레임워크를 제안했습니다. 30개 이상의 모델(10개 패밀리, 5개국)을 평가한 결과, 오픈소스 LLM은 좌편향 콘텐츠를 더 쉽게 생성하고, 모델 크기가 클수록 OW가 좁아지며, 국가별 차이가 큽니다. 간단한 자연어 jailbreak로 OW가 확장되지만, 모델 패밀리별로 효과가 크게 달라 맞춤형 감사가 필요합니다.
USC-ISI가 오픈소스 LLM의 정치적 표현 범위(Overton Window)를 측정하고 jailbreak 취약성을 분석한 프레임워크를 공개했습니다.
핵심 결론
- 대상 — 30개 이상의 오픈소스 LLM (10개 패밀리, 5개국) — API 전용 모델은 제외, 로컬 배포 시나리오에 초점.
- OW 측정 — Overton Window란 모델이 논란 주제에 대해 표현할 수 있는 정치적 의견의 범위. jailbreak 전후로 확장 정도를 정량화.
- 비대칭성 — 오픈소스 LLM은 좌파 성향 콘텐츠를 더 쉽게 생성하며, 모델 크기가 클수록 OW가 좁아지는 경향.
- 지역 차이 — 국가별 표현 범위 차이가 크며, 오픈소스 생태계의 불균형한 대표성에도 불구하고 유의미한 차이를 보임.
방법
- 프레임워크 — 논란 주제 선정 → OW 기준 정의 → jailbreak 기법 조합 탐색 → OW 확장 측정의 4단계.
- Jailbreak — 간단한 자연어 프롬프트(예: 역할극, 가상 시나리오)로 OW 확장을 유도. 모델 패밀리별로 효과적인 기법이 크게 달라짐.
- 평가 — 생성된 콘텐츠의 정치적 성향을 자동 분류 + 인간 평가로 검증. 좌-우 스펙트럼에서의 표현 가능성을 측정.
한계·조건
- 범위 — 오픈소스 LLM에 한정, API 모델(예: GPT-4, Claude)은 포함되지 않아 비교가 제한적.
- 재현성 — 코드와 데이터는 공개 예정이지만 현재는 논문과 부록만 제공. 모델 선택이 특정 국가/패밀리에 편중될 가능성.
- 실용성 — jailbreak 기법의 실제 사회공학 시나리오와의 정합성은 추가 검증 필요.
편집자 한 줄
오픈소스 LLM의 정치적 편향을 계량화한 점은 의미 있지만, API 모델과의 비교가 빠져 전체 그림을 보기엄 아쉽습니다.
- #red-teaming
- #political-influence
- #open-source-llm
- #overton-window
- #usc-isi
USC Information Sciences Institute