← Back to feed
Papers·1주 전

SGDR: 웹 에이전트의 단계별 스킬 재사용 — WebArena에서 GPT-4.1 37.5% 성공률

SGDR: 웹 에이전트의 단계별 스킬 재사용 — WebArena에서 GPT-4.1 37.5% 성공률

University of Georgia 팀이 웹 에이전트가 실행 중간 상태에 따라 동적으로 스킬을 검색·재사용하는 SGDR(State-Grounded Dynamic Retrieval)을 제안했습니다. 기존 태스크 수준의 정적 스킬 재사용과 달리, 슬라이딩 윈도우로 완료된 궤적에서 하위 절차를 추출하고, 이중 텍스트-코드 표현으로 실행 가능한 액션과 연결하며, 현재 웹페이지 상태와 태스크 목표를 함께 고려해 스킬을 검색합니다. WebArena 5개 도메인에서 GPT-4.1 기준 37.5%, Qwen3-4B 기준 24.3% 성공률로 강력한 베이스라인 대비 각각 10.6%, 10.0% 상대적 개선을 보였습니다. 코드는 공개되었습니다.

웹 에이전트가 실행 중간 상태에 맞춰 스킬을 동적으로 검색·재사용하는 SGDR을 제안했습니다.

핵심 결론

  • 성능WebArena 5개 도메인 평균 성공률 GPT-4.1 37.5%, Qwen3-4B 24.3% — 베이스라인 대비 각각 10.6%, 10.0% 상대적 개선.
  • 비교기존 태스크 수준 정적 스킬 재사용 대비 모든 도메인에서 일관된 향상.

방법

  • 슬라이딩 윈도우 추출완료된 궤적에서 중간 상태에서 호출 가능한 하위 절차를 추출합니다.
  • 이중 표현스킬을 자연어 설명과 실행 가능한 코드(액션 시퀀스)로 함께 저장해 검색과 실행을 연결합니다.
  • 상태 기반 동적 검색매 스텝마다 현재 웹페이지 상태와 태스크 목표를 모두 고려해 가장 관련 높은 스킬을 검색합니다.

한계·조건

  • 환경WebArena 환경에서만 검증됨 — 실제 웹 일반화는 추가 실험 필요.
  • 비용매 스텝마다 검색이 추가되어 GPT-4.1 기준 지연 시간과 토큰 비용이 증가할 수 있습니다.
  • 코드GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

스킬 재사용을 '언제' 할지가 생각보다 중요하다는 점을 잘 보여주네요. 다만 검색 오버헤드가 실용성에 얼마나 영향을 줄지 지켜볼 만합니다.

  • #web-agent
  • #skill-learning
  • #dynamic-retrieval
  • #webarena
  • #university-of-georgia
University of Georgia
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —