Papers·1개월 전

LLM 적대적 공격의 비용을 고려한 평가 프레임워크 — FLOPs 기반 compute-aware 위험 곡선

기존 LLM 적대적 공격 평가는 고정된 쿼리 예산에서 성공률(ASR)만 측정하지만, 실제 공격 비용은 전략에 따라 수 배 차이 납니다. 본 연구는 누적 FLOPs를 계산 압력(computational pressure)으로 삼아 risk-compute 곡선을 도입하고, 10개 모델·3가지 공격 전략 평가에서 정렬 학습이 비용 공간에서 비단조적 효과를 보이며, 모델 크기 확장은 gradient 기반 공격을 약화시키지만 템플릿 기반 공격에는 영향이 적다는 점을 밝혔습니다. 또한 단일 모델 내에서도 유해 범주별로 최대 5배의 비용 차이가 발생합니다.

LLM 적대적 공격의 진짜 비용을 FLOPs로 측정하는 평가 프레임워크가 제안됐습니다.

핵심 결론

문제 — 기존 ASR 평가는 공격 비용 차이를 무시해, 실제 위험을 과소평가할 수 있습니다.
제안 — 누적 FLOPs 기반 compute pressure와 risk-compute 곡선을 도입, 두 가지 요약 지표를 제시합니다.
주요 발견 — 정렬 학습은 비용 공간에서 비단조적 효과를 보이며, 모델 확장은 gradient 공격만 억제합니다.

방법

메트릭 — 공격 성공에 필요한 평균 FLOPs를 계산 압력으로 정의, risk-compute 곡선 아래 면적으로 요약합니다.
공격 전략 — gradient 기반(Greedy Coordinate Gradient), iterative refinement(PAIR), template 기반(DeepInception) 세 가지를 사용했습니다.
모델 — Llama 2/3, Mistral, Gemma 등 10개 모델, 네 가지 정렬 단계(사전학습, SFT, RLHF, DPO)를 포함합니다.

한계·조건

벤치마크 — HarmBench와 StrongREJECT 두 가지 jailbreak 벤치마크로 평가했으며, 특정 공격에 최적화된 결과일 수 있습니다.
비용 근사 — FLOPs는 forward/backward 연산만 포함하며, 메모리 접근이나 통신 비용은 제외했습니다.
코드 — 프레임워크는 공개되었으나, 재현을 위해서는 동일 하드웨어 설정이 필요합니다.

편집자 한 줄

공격 비용을 고려한 평가는 실용적 위험 분석에 한 걸음 더 다가선 느낌입니다. 다만 FLOPs가 실제 지연 시간이나 전력 소모와 완전히 비례하지는 않을 수 있어, 후속 연구에서 보정이 필요해 보입니다.

#adversarial-robustness
#llm
#jailbreak
#compute-aware
#evaluation

r-three

원문 보기 →

LLM 적대적 공격의 비용을 고려한 평가 프레임워크 — FLOPs 기반 compute-aware 위험 곡선

핵심 결론

방법

한계·조건

Comments