← Back to feed
Papers·4일 전

OpenSkill: 에이전트가 배포 후 스스로 스킬과 검증기를 구축하는 프레임워크

OpenSkill: 에이전트가 배포 후 스스로 스킬과 검증기를 구축하는 프레임워크

OpenSkill은 배포 후 에이전트가 작업 프롬프트만으로 스킬과 검증 신호를 처음부터 구축하게 하는 프레임워크입니다. 문서, 저장소, 웹에서 지식을 획득하고 전이 가능한 스킬로 합성한 뒤, 자체 구축한 가상 작업으로 스킬을 개선합니다. 세 벤치마크에서 최고 자동 통과율을 달성했으며, 스킬이 모델 간 전이되고 자체 검증기가 실제 결과와 일치함을 보였습니다.

OpenSkill은 배포 후 에이전트가 작업 프롬프트만으로 스킬과 검증 신호를 처음부터 구축하게 하는 프레임워크입니다.

핵심 결론

  • 성능세 벤치마크(WebArena, SWE-bench, ALFWorld)에서 OpenSkill이 최고 자동 통과율을 기록했으며, 작업별 감독 없이도 기존 방법을 능가했습니다.
  • 전이성학습된 스킬은 모델별 적응 없이 다른 에이전트(CodeAct, ReAct)로 전이 가능했습니다.
  • 정렬자체 구축한 검증기가 실제 정답과 높은 일치도를 보여, 감독 없이도 신뢰할 수 있는 신호를 생성함을 입증했습니다.

방법

  • 부트스트래핑문서, 코드 저장소, 웹에서 지식을 수집하고, 이를 바탕으로 '검증 앵커'를 추출합니다.
  • 스킬 합성앵커를 기반으로 전이 가능한 스킬(예: API 호출, 디버깅)을 템플릿화하여 저장합니다.
  • 자가 개선앵커에서 파생된 가상 작업을 생성하고, 스킬을 실행한 결과를 자체 검증기로 평가해 피드백 루프를 구성합니다.
  • 검증기검증 앵커를 활용해 작업 성공 여부를 판단하는 규칙 기반 검증기를 자동 구축합니다.

한계·조건

  • 리소스웹 검색과 코드 실행이 필요하므로 오프라인 환경에서는 적용이 어렵습니다.
  • 벤치세 가지 벤치마크에 국한되어 있으며, 더 다양한 도메인에서의 검증이 필요합니다.
  • 코드코드는 공개되지 않았으나, 논문에 상세한 구현 설명이 포함되어 있습니다.

편집자 한 줄

감독 신호 없이도 스킬을 스스로 구축한다는 점이 인상적입니다. 다만 웹 접근이 전제되어 실제 배포 환경에 따라 적용 범위가 달라질 수 있겠네요.

  • #self-evolution
  • #agent
  • #open-world
  • #skill-acquisition
  • #verifier
Zhiling Yan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —