Papers·1개월 전

SkillOpt — 텍스트 공간에서 에이전트 스킬을 최적화하는 첫 체계적 방법, 52개 평가셀에서 최고 기록

Microsoft Research 팀이 에이전트 스킬을 텍스트 공간에서 직접 최적화하는 SkillOpt를 발표했습니다. 별도의 optimizer 모델이 점수가 매겨진 rollout을 바탕으로 스킬 문서에 add/delete/replace 편집을 가하고, 검증 점수가 엄격히 개선될 때만 수용하는 방식입니다. 텍스트 학습률 예산, 거부된 편집 버퍼, epoch 단위 slow/meta 업데이트로 훈련 안정성을 확보했으며, 배포 시 추가 추론 비용이 들지 않습니다. GPT-5.5 기준 direct chat에서 +23.5%p, Codex 루프에서 +24.8%p, Claude Code에서 +19.1%p의 정확도 향상을 보였고, 52개 평가셀 모두에서 기존 방법(Human, one-shot LLM, TextGrad, EvoSkill 등)을 능가했습니다. 다만 스킬 최적화에 별도의 optimizer 모델 훈련이 필요하다는 점은 한계입니다.

#microsoft
#agent
#skill-optimization
#text-space-optimization

Microsoft Research

원문 보기 →

SkillOpt — 텍스트 공간에서 에이전트 스킬을 최적화하는 첫 체계적 방법, 52개 평가셀에서 최고 기록

Comments