Papers·1개월 전

SGDR: 웹 에이전트의 단계별 스킬 재사용 — WebArena에서 GPT-4.1 37.5% 성공률

University of Georgia 팀이 웹 에이전트가 실행 중간 상태에 따라 동적으로 스킬을 검색·재사용하는 SGDR(State-Grounded Dynamic Retrieval)을 제안했습니다. 기존 태스크 수준의 정적 스킬 재사용과 달리, 슬라이딩 윈도우로 완료된 궤적에서 하위 절차를 추출하고, 이중 텍스트-코드 표현으로 실행 가능한 액션과 연결하며, 현재 웹페이지 상태와 태스크 목표를 함께 고려해 스킬을 검색합니다. WebArena 5개 도메인에서 GPT-4.1 기준 37.5%, Qwen3-4B 기준 24.3% 성공률로 강력한 베이스라인 대비 각각 10.6%, 10.0% 상대적 개선을 보였습니다. 코드는 공개되었습니다.

웹 에이전트가 실행 중간 상태에 맞춰 스킬을 동적으로 검색·재사용하는 SGDR을 제안했습니다.

핵심 결론

성능 — WebArena 5개 도메인 평균 성공률 GPT-4.1 37.5%, Qwen3-4B 24.3% — 베이스라인 대비 각각 10.6%, 10.0% 상대적 개선.
비교 — 기존 태스크 수준 정적 스킬 재사용 대비 모든 도메인에서 일관된 향상.

방법

슬라이딩 윈도우 추출 — 완료된 궤적에서 중간 상태에서 호출 가능한 하위 절차를 추출합니다.
이중 표현 — 스킬을 자연어 설명과 실행 가능한 코드(액션 시퀀스)로 함께 저장해 검색과 실행을 연결합니다.
상태 기반 동적 검색 — 매 스텝마다 현재 웹페이지 상태와 태스크 목표를 모두 고려해 가장 관련 높은 스킬을 검색합니다.

한계·조건

환경 — WebArena 환경에서만 검증됨 — 실제 웹 일반화는 추가 실험 필요.
비용 — 매 스텝마다 검색이 추가되어 GPT-4.1 기준 지연 시간과 토큰 비용이 증가할 수 있습니다.
코드 — GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

스킬 재사용을 '언제' 할지가 생각보다 중요하다는 점을 잘 보여주네요. 다만 검색 오버헤드가 실용성에 얼마나 영향을 줄지 지켜볼 만합니다.

#web-agent
#skill-learning
#dynamic-retrieval
#webarena
#university-of-georgia

University of Georgia

원문 보기 →

SGDR: 웹 에이전트의 단계별 스킬 재사용 — WebArena에서 GPT-4.1 37.5% 성공률

핵심 결론

방법

한계·조건

Comments