Papers·4일 전
WebChallenger — 오픈웨이트 LLM으로 WebArena 56.3% 달성, 추론 비용 1/10

KAIST 연구진이 오픈웨이트 LLM만으로 WebArena 56.3%, VisualWebArena 48.7%를 달성하는 웹 에이전트 프레임워크 WebChallenger를 공개했습니다. 핵심은 PageMem이라는 DOM 기반 계층적 페이지 표현 위에 선택적 주의, 구조 기억, 절차적 숙련도 세 가지 인간 인지 전략을 모방한 모듈을 얹은 점입니다. 추론 비용이 높은 독점 모델 없이도 frontier 수준에 근접했지만, WorkArena(70.9%) 외 벤치마크에서 GPT-4V 등 최고 독점 모델과는 아직 격차가 있습니다.
KAIST 연구진이 오픈웨이트 LLM으로 WebArena 56.3%를 달성하는 웹 에이전트 프레임워크 WebChallenger를 공개했습니다.
핵심 결론
- 벤치 — WebArena 56.3%, VisualWebArena 48.7%, Online-Mind2Web 51.0%, WorkArena 70.9%.
- 모델 — 오픈웨이트 모델(Llama 3, Qwen2 등)을 fine-tuning 없이 사용, 추론 비용은 독점 모델 대비 약 1/10.
방법
- PageMem — DOM에서 계층적 섹션 요약을 추출한 구조화된 페이지 표현. 모든 모듈의 공통 기반.
- 선택적 주의 — 섹션 요약을 스킴하고 task 관련 영역만 상세 추출하는 divide-and-conquer 관찰 파이프라인.
- 기억 시스템 — 사이트를 한 번 탐색해 페이지와 요소 동작의 재사용 가능한 맵을 구축.
- 복합 액션 — 여러 단계 상호작용을 단일 액션으로 압축, 부분 상태 변화 자동 처리.
한계·조건
- 격차 — WebArena에서 GPT-4V(약 60%대)보다 낮고, VisualWebArena에서도 GPT-4V(약 55%)에 미달.
- 일반화 — PageMem 덕분에 사이트별 어댑터 불필요하나, 매우 동적인 페이지나 JavaScript-heavy 사이트에서 성능 검증 필요.
- 코드 — GitHub 공개 (https://github.com/jayoohwang1/webchallenger).
편집자 한 줄
추론 비용 대비 성능비가 인상적이지만, 독점 모델과의 격차를 좁히려면 더 큰 오픈모델이나 fine-tuning이 필요할 수 있겠네요.
- #web-agent
- #llm
- #webarena
- #kaist
Jayoo Hwang