Papers·3주 전

Zhejiang University, 동적 환경에서 CUA 안전하게 스킬 학습하는 SkillHarness — 위험률 57.1% 감소

Zhejiang University 팀이 Computer-Use Agent(CUA)가 동적 환경에서도 안전하게 스킬을 학습하고 재사용할 수 있는 프레임워크 SkillHarness를 제안했습니다. 기존 스킬 학습 방법은 정적·안전 환경을 가정해 프롬프트 인젝션이나 팝업 같은 동적 위협에 취약했는데, SkillHarness는 다중 소스 감독 신호로 스킬 경계(skill boundary)를 정의하고 자기 개선형 안전 제약을 도입해 위험률을 57.1% 줄였습니다. 단, 실험은 시뮬레이션 환경(WebArena 등)에 국한되어 실제 배포 환경에서의 일반화는 추가 검증이 필요합니다.

동적 환경에서 CUA가 안전하게 스킬을 학습하고 재사용하는 프레임워크 SkillHarness가 공개됐습니다.

핵심 결론

태스크 — Computer-Use Agent의 안전한 스킬 학습 및 재사용.
성능 — 학습된 스킬의 위험률(unsafe rate)을 기존 대비 57.1% 감소.
안정성 — 동적 환경 변화(팝업, 프롬프트 인젝션)에서도 실행 안정성 일관되게 향상.

방법

스킬 경계 — 다중 소스 감독(환경 피드백, 안전 규칙, 사용자 신호)으로 안전한 스킬과 위험한 스킬을 구분하는 경계를 학습.
자기 개선 제약 — 스킬 생애주기 동안 안전 제약을 지속적으로 업데이트해 동적 위협에 대응.
선택적 재사용 — 태스크를 컨텍스트에 따라 분해하고, 안전한 스킬 부분집합만 선택적으로 활성화해 실행.

한계·조건

환경 — 실험은 WebArena, MiniWoB++ 등 시뮬레이션 환경에서 수행되어 실제 웹·데스크톱 환경에서의 일반화는 미검증.
비용 — 다중 감독 신호 수집과 스킬 경계 업데이트에 추가 오버헤드가 발생.
코드 — 논문 발표 시점에서 코드 공개 여부는 명시되지 않음.

편집자 한 줄

안전 제약을 동적으로 업데이트한다는 아이디어는 실용적이지만, 감독 신호의 품질에 민감할 수 있어 실제 적용 시 추가 튜닝이 필요해 보입니다.

#computer-use-agent
#skill-learning
#safety
#zhejiang-university

Zhejiang University

원문 보기 →

Zhejiang University, 동적 환경에서 CUA 안전하게 스킬 학습하는 SkillHarness — 위험률 57.1% 감소

핵심 결론

방법

한계·조건

Comments