Papers·1개월 전

LiSA: 가드레일을 배우는 AI 에이전트 — 희소 피드백으로 평생 안전 적응

Google 팀이 AI 에이전트의 가드레일을 배포 환경에 적응시키는 LiSA(Lifelong Safety Adaptation) 프레임워크를 제안했습니다. 가드레일 실패가 단순 답변 품질을 넘어 비밀 유출, 안전하지 않은 행동 승인 등으로 이어지는 상황에서, LiSA는 드문 사용자 신고를 재사용 가능한 정책 추상화로 변환하고, 충돌 인식 로컬 규칙과 증거 기반 신뢰도 게이팅을 통해 희소·잡음 피드백에서도 강건하게 동작합니다. PrivacyLens+, ConFaide+, AgentHarm 벤치마크에서 기존 메모리 기반 방법을 일관되게 능가했으며, 20% 레이블 플립 노이즈에서도 성능이 유지되었습니다. 다만 이 방법은 추가 메모리 저장과 추론 시 정책 검색 비용이 발생하므로, 지연 시간이 중요한 실시간 서비스에서는 적용 전 검토가 필요합니다.

#ai-agents
#safety
#guardrails
#google
#lifelong-learning

Google

원문 보기 →

LiSA: 가드레일을 배우는 AI 에이전트 — 희소 피드백으로 평생 안전 적응

Comments