Papers·1개월 전

LLM 에이전트, 대화 초반에 취약 — Cold-Start Safety Gap 발견, 선행 태스크로 9~52% 개선

Tool-calling LLM 에이전트가 대화 초반에 가장 취약하며, 몇 번의 정규 태스크를 수행한 후에는 안전성이 크게 향상된다는 cold-start safety gap 현상을 발견했습니다. SODA 벤치마크로 7개 모델을 평가한 결과, 선행 태스크가 0에서 20개로 늘어날수록 안전성이 9~52% 개선되었으며, 모델 hidden state가 safety-aligned 영역으로 이동함을 확인했습니다. 정규 태스크 자체가 안전성 향상의 주된 요인이며, 에이전트의 이전 응답은 유틸리티 유지에 중요합니다. 배포 전 몇 개의 정규 태스크를 먼저 수행하도록 하는 간단한 전략을 제안합니다.

LLM 에이전트가 대화 초반에 가장 취약하다는 cold-start safety gap을 발견하고, 이를 완화하는 간단한 배포 전략을 제안한 연구입니다.

핵심 결론

현상 — Tool-calling LLM 에이전트는 대화 시작 시 safety 위협에 가장 취약하며, 몇 번의 정규 태스크를 수행한 후에는 안전성이 크게 향상됩니다.
개선폭 — SODA 벤치마크에서 선행 태스크 수가 0에서 20으로 증가할 때 안전성이 9~52% 개선되었습니다.
원인 — 정규 태스크 자체가 안전성 향상의 주된 요인이며, 모델 hidden state가 safety-aligned 영역으로 점진적으로 이동합니다.

방법

SODA — 안전 위협 이전에 최대 20개의 정규 태스크를 수행하도록 제어하는 Safety Over Depth for Agents 벤치마크를 도입했습니다.
모델 — 4개 패밀리(GPT-4, Claude, Llama, Mistral)의 7개 모델을 평가했습니다.
분석 — Representation analysis를 통해 모델 hidden state가 선행 태스크 증가에 따라 safety-aligned 영역으로 이동함을 확인했습니다.
벤치 — AgentHarm, Agent Safety Bench(안전), BFCL, API-Bank(유틸리티)에서도 동일한 패턴을 확인했습니다.

한계·조건

범위 — Tool-calling 에이전트에 국한되며, 일반 챗봇이나 다른 에이전트 유형에는 일반화되지 않을 수 있습니다.
선행 태스크 — 정규 태스크의 종류와 난이도가 안전성에 미치는 영향은 추가 연구가 필요합니다.
코드 — GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

간단한 배포 전략(몇 개의 정규 태스크 먼저 수행)으로 안전성을 크게 높일 수 있다는 점이 실용적입니다.

#llm-agents
#safety
#benchmark
#tool-calling

Chung-En Sun

원문 보기 →

LLM 에이전트, 대화 초반에 취약 — Cold-Start Safety Gap 발견, 선행 태스크로 9~52% 개선

핵심 결론

방법

한계·조건

Comments