Papers·1개월 전

Ohio State, LLM 에이전트 경험이 절차적 스킬로 이어지는지 평가하는 SkillEvolBench 공개

Ohio State 팀이 LLM 에이전트가 경험을 재사용 가능한 절차적 스킬로 추상화하는 능력을 평가하는 벤치마크 SkillEvolBench를 제안했습니다. 6개 환경, 180개 태스크로 구성되며, 에이전트는 획득 태스크에서 학습한 후 외부 스킬 라이브러리를 업데이트하고, 고정된 배포 태스크에서 컨텍스트 이동·적대적 지름길·구성 능력을 테스트받습니다. 10개 모델, 3개 에이전트 하네스 실험 결과, 현재 에이전트는 국소 적응은 하지만 견고한 재사용 가능 스킬을 거의 형성하지 못했으며, 원시 궤적 재사용이 증류된 스킬보다 자주 더 나은 성능을 보였습니다.

LLM 에이전트가 실제 태스크를 수행하며 쌓은 경험을 절차적 스킬로 전환할 수 있는지 진단하는 벤치마크가 나왔습니다.

핵심 결론

벤치마크 — SkillEvolBench는 6개 환경, 180개 태스크로 역할 조건화된 태스크 패밀리로 구성됩니다.
실험 결과 — 10개 모델, 3개 에이전트 하네스에서 현재 에이전트는 국소 적응은 하지만 견고한 재사용 가능 스킬을 거의 형성하지 못했습니다.
주요 발견 — 원시 궤적 재사용이 증류된 스킬보다 자주 더 나은 성능을 보여, 현재 추상화 절차가 맥락적·절차적 단서를 버리고 있음을 시사합니다.

방법

태스크 구성 — 획득 태스크에서 학습 후 외부 스킬 라이브러리를 업데이트하고, 고정 배포 태스크에서 컨텍스트 이동, 적대적 지름길, 구성 능력을 테스트합니다.
비교 조건 — 자체 생성 vs 큐레이션된 시작 스킬 진화, 그리고 스킬 없음·원시 궤적 재사용 조건을 비교해 절차적 추상화를 분리합니다.
분석 — 용량 및 비용 분석에서 더 많은 스킬이나 큰 리소스 라이브러리가 충분하지 않으며, 추가 업데이트가 커버리지를 높이는 대신 에피소드 특이 드리프트와 절차적 잡음을 도입함을 보였습니다.

한계·조건

환경 — 6개 실제 에이전트 환경으로 제한되며, 모든 태스크가 역할 조건화된 패밀리로 구성되어 일반화 범위가 한정됩니다.
재현성 — 벤치마크는 공개되었으나, 구체적인 모델 구성과 하이퍼파라미터는 논문 내에 상세히 기술되어 있습니다.

편집자 한 줄

스킬 형성의 어려움을 실험적으로 잘 드러낸 벤치마크입니다. 원시 궤적 재사용이 증류된 스킬을 능가하는 점이 흥미롭네요.

#llm-agents
#skill-formation
#benchmark
#ohio-state

The Ohio State University

원문 보기 →

Ohio State, LLM 에이전트 경험이 절차적 스킬로 이어지는지 평가하는 SkillEvolBench 공개

핵심 결론

방법

한계·조건

Comments