Papers·1개월 전

SkillOS: 경험 기반 RL로 스킬 큐레이션 학습 — 에이전트가 과거 경험에서 재사용 가능한 스킬을 자동으로 추출

SkillOS는 LLM 기반 에이전트가 스트리밍 태스크에서 과거 경험을 학습해 재사용 가능한 스킬을 자동으로 큐레이션하는 RL 훈련 레시피입니다. 고정된 실행기와 학습 가능한 큐레이터를 분리하고, 스킬 의존성 기반 태스크 그룹에서 합성 보상을 설계해 장기 큐레이션 정책을 학습합니다. 다중 턴 에이전트 태스크와 단일 턴 추론 태스크 모두에서 메모리 기반 베이스라인보다 효율성과 효과성에서 우수했으며, 큐레이터가 다른 실행기 백본과 도메인으로 일반화되는 점이 흥미로운 포인트입니다. 다만 훈련에 그룹화된 태스크 스트림과 합성 보상 설계가 필요해 적용 범위가 제한적일 수 있습니다.

#llm-agent
#skill-curation
#reinforcement-learning
#self-evolution
#skillos

Siru Ouyang

원문 보기 →

SkillOS: 경험 기반 RL로 스킬 큐레이션 학습 — 에이전트가 과거 경험에서 재사용 가능한 스킬을 자동으로 추출

Comments