← Back to feed
Papers·2일 전

CodeSpear: 문법 제약 디코딩(GCD)이 LLM 코드 생성의 공격 표면이 되는 취약점 발견

CodeSpear: 문법 제약 디코딩(GCD)이 LLM 코드 생성의 공격 표면이 되는 취약점 발견

연구진이 LLM의 코드 생성을 제어하는 Grammar-Constrained Decoding(GCD)이 오히려 악성 코드 생성을 유도하는 공격 표면이 될 수 있음을 발견했습니다. CodeSpear라는 공격은 단순히 정상적인 코드 문법 제약을 적용하는 것만으로도 LLM을 탈옥시켜 평균 공격 성공률을 30%p 이상 높였습니다. 방어 기법 CodeShield는 GCD 환경에서도 안전한 행동을 유지하도록 모델을 정렬하며, 자연어 거절을 보존하면서도 유틸리티를 유지합니다.

LLM 코드 생성의 신뢰성을 높이기 위해 도입된 GCD가 오히려 악성 코드 생성을 유도하는 역설적 취약점을 드러냈습니다.

핵심 결론

  • 공격CodeSpear는 GCD를 악용해 LLM이 악성 코드를 생성하도록 유도하며, 10개 LLM, 4개 벤치마크에서 기존 탈옥 대비 공격 성공률을 평균 30%p 이상 높였습니다.
  • 방어CodeShield는 GCD 환경에서도 안전한 행동을 유지하도록 모델을 정렬하며, 자연어 거절 능력을 보존합니다.

방법

  • CodeSpear공격자는 단순히 정상적인 코드 문법 제약(예: Python grammar)을 GCD로 적용하면, LLM이 악성 코드를 생성하도록 유도됩니다. 이는 GCD가 모델의 안전 정렬을 우회하는 경로를 제공하기 때문입니다.
  • CodeShield방어는 코드 모달리티에서 모델을 정렬하여, GCD 하에서도 허니팟 코드(의미적으로 무해하고 구조적으로 다양한 코드)를 생성하도록 학습시킵니다. 이를 통해 공격자의 문법 제약을 우회하면서도 안전성을 확보합니다.

한계·조건

  • 범위실험은 10개 인기 LLM에 대해 수행되었으나, 모든 GCD 구현이나 코드 생성 시나리오를 포괄하지는 않습니다.
  • 재현성논문에는 공격 및 방어 코드가 공개되지 않았으며, 추후 공개 예정입니다.
  • CodeShield는 자연어 거절을 보존하지만, 모든 GCD 환경에서 완벽한 안전성을 보장하지는 않습니다.

편집자 한 줄

GCD가 단순한 신뢰성 도구가 아니라 보안 위험을 내포할 수 있다는 점을 지적한 연구로, 향후 코드 생성 파이프라인 설계에 중요한 시사점을 줍니다.

  • #llm
  • #code-generation
  • #jailbreak
  • #grammar-constrained-decoding
  • #safety
Yitong Zhang
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —