Papers·1개월 전

OpenSkill: 에이전트가 배포 후 스스로 스킬과 검증기를 구축하는 프레임워크

OpenSkill은 배포 후 에이전트가 작업 프롬프트만으로 스킬과 검증 신호를 처음부터 구축하게 하는 프레임워크입니다. 문서, 저장소, 웹에서 지식을 획득하고 전이 가능한 스킬로 합성한 뒤, 자체 구축한 가상 작업으로 스킬을 개선합니다. 세 벤치마크에서 최고 자동 통과율을 달성했으며, 스킬이 모델 간 전이되고 자체 검증기가 실제 결과와 일치함을 보였습니다.

OpenSkill은 배포 후 에이전트가 작업 프롬프트만으로 스킬과 검증 신호를 처음부터 구축하게 하는 프레임워크입니다.

핵심 결론

성능 — 세 벤치마크(WebArena, SWE-bench, ALFWorld)에서 OpenSkill이 최고 자동 통과율을 기록했으며, 작업별 감독 없이도 기존 방법을 능가했습니다.
전이성 — 학습된 스킬은 모델별 적응 없이 다른 에이전트(CodeAct, ReAct)로 전이 가능했습니다.
정렬 — 자체 구축한 검증기가 실제 정답과 높은 일치도를 보여, 감독 없이도 신뢰할 수 있는 신호를 생성함을 입증했습니다.

방법

부트스트래핑 — 문서, 코드 저장소, 웹에서 지식을 수집하고, 이를 바탕으로 '검증 앵커'를 추출합니다.
스킬 합성 — 앵커를 기반으로 전이 가능한 스킬(예: API 호출, 디버깅)을 템플릿화하여 저장합니다.
자가 개선 — 앵커에서 파생된 가상 작업을 생성하고, 스킬을 실행한 결과를 자체 검증기로 평가해 피드백 루프를 구성합니다.
검증기 — 검증 앵커를 활용해 작업 성공 여부를 판단하는 규칙 기반 검증기를 자동 구축합니다.

한계·조건

리소스 — 웹 검색과 코드 실행이 필요하므로 오프라인 환경에서는 적용이 어렵습니다.
벤치 — 세 가지 벤치마크에 국한되어 있으며, 더 다양한 도메인에서의 검증이 필요합니다.
코드 — 코드는 공개되지 않았으나, 논문에 상세한 구현 설명이 포함되어 있습니다.

편집자 한 줄

감독 신호 없이도 스킬을 스스로 구축한다는 점이 인상적입니다. 다만 웹 접근이 전제되어 실제 배포 환경에 따라 적용 범위가 달라질 수 있겠네요.

#self-evolution
#agent
#open-world
#skill-acquisition
#verifier

Zhiling Yan

원문 보기 →

OpenSkill: 에이전트가 배포 후 스스로 스킬과 검증기를 구축하는 프레임워크

핵심 결론

방법

한계·조건

Comments