← Back to feed
Papers·2일 전

Skill1: 단일 정책으로 스킬 선택·활용·증류를 공동 진화시키는 프레임워크 — ALFWorld·WebShop에서 기존 방법 대비 성능 향상

Skill1: 단일 정책으로 스킬 선택·활용·증류를 공동 진화시키는 프레임워크 — ALFWorld·WebShop에서 기존 방법 대비 성능 향상

Yaorui Shi 팀이 언어 모델 에이전트가 스킬 라이브러리를 유지하며 작업을 수행하는 Skill1 프레임워크를 제안했습니다. 단일 정책이 스킬 검색·선택·활용·증류를 하나의 작업-결과 신호로 학습하며, 저주파수 경향은 선택을, 고주파수 변동은 증류를 보상합니다. ALFWorld와 WebShop 실험에서 기존 스킬 기반 및 강화학습 기준선을 능가했지만, 각 신호를 제거하면 공진화가 저하된다는 한계가 있습니다.

Yaorui Shi

Comments

— 첫 댓글을 남겨보세요 —