Papers·1주 전
LLM 에이전트, 대화 초반에 취약 — Cold-Start Safety Gap 발견, 선행 태스크로 9~52% 개선

Tool-calling LLM 에이전트가 대화 초반에 가장 취약하며, 몇 번의 정규 태스크를 수행한 후에는 안전성이 크게 향상된다는 cold-start safety gap 현상을 발견했습니다. SODA 벤치마크로 7개 모델을 평가한 결과, 선행 태스크가 0에서 20개로 늘어날수록 안전성이 9~52% 개선되었으며, 모델 hidden state가 safety-aligned 영역으로 이동함을 확인했습니다. 정규 태스크 자체가 안전성 향상의 주된 요인이며, 에이전트의 이전 응답은 유틸리티 유지에 중요합니다. 배포 전 몇 개의 정규 태스크를 먼저 수행하도록 하는 간단한 전략을 제안합니다.
LLM 에이전트가 대화 초반에 가장 취약하다는 cold-start safety gap을 발견하고, 이를 완화하는 간단한 배포 전략을 제안한 연구입니다.
핵심 결론
- 현상 — Tool-calling LLM 에이전트는 대화 시작 시 safety 위협에 가장 취약하며, 몇 번의 정규 태스크를 수행한 후에는 안전성이 크게 향상됩니다.
- 개선폭 — SODA 벤치마크에서 선행 태스크 수가 0에서 20으로 증가할 때 안전성이 9~52% 개선되었습니다.
- 원인 — 정규 태스크 자체가 안전성 향상의 주된 요인이며, 모델 hidden state가 safety-aligned 영역으로 점진적으로 이동합니다.
방법
- SODA — 안전 위협 이전에 최대 20개의 정규 태스크를 수행하도록 제어하는 Safety Over Depth for Agents 벤치마크를 도입했습니다.
- 모델 — 4개 패밀리(GPT-4, Claude, Llama, Mistral)의 7개 모델을 평가했습니다.
- 분석 — Representation analysis를 통해 모델 hidden state가 선행 태스크 증가에 따라 safety-aligned 영역으로 이동함을 확인했습니다.
- 벤치 — AgentHarm, Agent Safety Bench(안전), BFCL, API-Bank(유틸리티)에서도 동일한 패턴을 확인했습니다.
한계·조건
- 범위 — Tool-calling 에이전트에 국한되며, 일반 챗봇이나 다른 에이전트 유형에는 일반화되지 않을 수 있습니다.
- 선행 태스크 — 정규 태스크의 종류와 난이도가 안전성에 미치는 영향은 추가 연구가 필요합니다.
- 코드 — GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
간단한 배포 전략(몇 개의 정규 태스크 먼저 수행)으로 안전성을 크게 높일 수 있다는 점이 실용적입니다.
- #llm-agents
- #safety
- #benchmark
- #tool-calling
Chung-En Sun