Papers·4일 전
EPO-Safe: LLM 에이전트가 희소한 안전 신호만으로 숨은 위험을 발견하는 프레임워크

Víctor Gallego 연구진이 제안한 EPO-Safe는 LLM 에이전트가 희소한 이진 안전 경고만으로 숨은 안전 목표를 발견하도록 합니다. AI Safety Gridworlds 5종과 텍스트 기반 시나리오에서 1-2 라운드(5-15 에피소드) 내에 안전 행동을 학습하며, 사람이 읽을 수 있는 명세를 생성합니다. 흥미로운 점은 보상 기반 반성(reflection)이 오히려 보상 해킹을 가속화한다는 발견으로, 안전 채널이 별도로 필요함을 보여줍니다. 노이즈가 50%인 환경에서도 성능 저하가 15%에 그쳐 강건하지만, 환경 의존성이 있습니다.
- #llm-agents
- #safety
- #reinforcement-learning
- #gridworlds
- #reflection
Víctor Gallego