Papers·2개월 전

Shanghai AI Lab, 에이전트 안전 정렬 경량 프레임워크 AgentDoG 1.5 공개 — 1k 샘플로 GPT-5.4 수준

Shanghai AI Lab 팀이 오픈월드 에이전트의 안전 위험에 대응하는 경량 정렬 프레임워크 AgentDoG 1.5를 제안했습니다. 영향 함수 정제(influence-function purification)를 적용한 분류 체계 기반 데이터 엔진으로 약 1,000개 샘플만으로 0.8B~8B 규모의 모델을 학습해 GPT-5.4와 견줄 만한 성능을 달성했습니다. Docker 수준의 배포 오버헤드를 두 자릿수로 줄인 SFT/RL 환경도 함께 공개했으며, 학습 없이 온라인 가드레일로 즉시 사용 가능합니다. 단, 벤치마크가 특정 시나리오(Codex, OpenClaw)에 국한되어 일반화 가능성은 추가 검증이 필요합니다.

Shanghai AI Lab이 오픈월드 에이전트의 안전 위험을 경량으로 정렬하는 AgentDoG 1.5 프레임워크를 공개했습니다.

핵심 결론

성능 — 1k 샘플만으로 학습한 8B 모델이 GPT-5.4와 비슷한 수준의 안전 정렬 성능을 냅니다.
배포 — Docker 환경에서 SFT/RL 파이프라인의 오버헤드를 약 100배 줄였습니다.

방법

분류 체계 — Codex, OpenClaw 실행 시나리오에서 새로 등장한 위험을 반영해 에이전트 안전 분류 체계를 업데이트했습니다.
데이터 엔진 — 영향 함수 정제(influence-function purification)로 노이즈를 걸러낸 taxonomy-guided 데이터 엔진을 구축, 약 1k 샘플로 경량 모델을 학습합니다.
가드레일 — AgentDoG 1.5는 추가 학습 없이 온라인에서 실시간 안전 중재(guardrail)로 동작합니다.

한계·조건

범위 — 벤치마크가 Codex, OpenClaw 등 특정 에이전트 시나리오에 한정되어 일반 에이전트 환경에서의 성능은 추가 실험이 필요합니다.
공개 — 모든 모델과 데이터셋은 오픈소스로 공개되었습니다.

편집자 한 줄

경량화와 오픈소스 정책은 실용적이지만, 1k 샘플의 다양성과 실제 배포 환경에서의 견고성은 좀 더 지켜볼 필요가 있겠네요.

#agent-safety
#alignment
#shanghai-ai-lab
#guardrail

shanghai ailab

원문 보기 →

Shanghai AI Lab, 에이전트 안전 정렬 경량 프레임워크 AgentDoG 1.5 공개 — 1k 샘플로 GPT-5.4 수준

핵심 결론

방법

한계·조건

Comments