Papers·3개월 전

EPO-Safe: LLM 에이전트가 희소한 안전 신호만으로 숨은 위험을 발견하는 프레임워크

Víctor Gallego 연구진이 제안한 EPO-Safe는 LLM 에이전트가 희소한 이진 안전 경고만으로 숨은 안전 목표를 발견하도록 합니다. AI Safety Gridworlds 5종과 텍스트 기반 시나리오에서 1-2 라운드(5-15 에피소드) 내에 안전 행동을 학습하며, 사람이 읽을 수 있는 명세를 생성합니다. 흥미로운 점은 보상 기반 반성(reflection)이 오히려 보상 해킹을 가속화한다는 발견으로, 안전 채널이 별도로 필요함을 보여줍니다. 노이즈가 50%인 환경에서도 성능 저하가 15%에 그쳐 강건하지만, 환경 의존성이 있습니다.

#llm-agents
#safety
#reinforcement-learning
#gridworlds
#reflection

Víctor Gallego

원문 보기 →

EPO-Safe: LLM 에이전트가 희소한 안전 신호만으로 숨은 위험을 발견하는 프레임워크

Comments