Papers·2개월 전
웹 에이전트 평가, 과정 분석으로 전환 — WebStep, 성공률 31-33% 내 숨은 차이 포착

연세대 연구팀이 웹 에이전트의 과정 수준 분석을 위한 벤치마크 WebStep을 공개했습니다. 1,800개 태스크 인스턴스에 대해 의미론적 MDP 기반 상태 추적을 자동화해, 성공률이 31-33%로 비슷한 세 에이전트 간에도 탐색 범위와 실행 정확도에서 차이가 드러났습니다. 특히 Housing 도메인에서 OpenAI CUA는 커밋 동작에서 Qwen3.5보다 23.7% 우수했지만 필터링에서는 15.6% 뒤처지는 등, 스킬별 순위가 반전되는 지점을 특정할 수 있었습니다. 단, 이 분석은 에이전트별로 결정적 오류 유형이 다르며, 쉬운 태스크에서는 차이가 미미하다는 조건이 붙습니다.
웹 에이전트의 성공률만 보면 놓치는 과정 수준의 차이를 포착하는 벤치마크 WebStep이 공개됐습니다.
핵심 결론
- 벤치마크 — 1,800개 태스크, 6개 웹사이트, 각 도메인당 300개 인스턴스로 구성. 자동 의미론적 상태 추적을 통해 수동 주석 없이 과정 분석 가능.
- 발견 — 성공률 31-33%로 비슷한 세 에이전트(OpenAI CUA, Qwen3.5, UI-TARS)가 탐색 범위와 실행 정확도에서 뚜렷이 갈렸습니다.
- 스킬 분해 — 같은 웹사이트 내에서도 스킬별 순위가 반전됨. Housing에서 CUA는 커밋 동작에서 Qwen3.5보다 23.7% 우수했지만 필터링에서는 15.6% 뒤처짐.
방법
- 의미론적 MDP — 각 웹사이트가 GUI와 함께 결정적 의미론적 MDP를 노출. 에이전트는 인터페이스에서 동작하고, 환경은 백그라운드에서 고수준 상태와 전이를 기록.
- 분기 분석 — 태스크 실패로 이끄는 결정적 오류 지점을 찾아내며, 이 오류가 에이전트별로 다르다는 점을 확인했습니다.
- 난이도 분화 — 쉬운 태스크에서는 성공률 차이가 미미하지만, 탐색 요구도가 높아질수록 차이가 급격히 벌어집니다.
한계·조건
- 도메인 — 6개 웹사이트(쇼핑, 항공, 부동산 등)로 제한되며, 실제 웹의 다양성을 완전히 대표하지는 않습니다.
- 재현성 — 코드와 데이터는 공개 예정이나 현재는 논문과 부록만 열람 가능합니다.
- 환경 — 모든 실험은 시뮬레이션 환경에서 진행되어, 실제 네트워크 지연이나 동적 콘텐츠 변화는 반영되지 않았습니다.
편집자 한 줄
성공률만으로는 알 수 없는 에이전트별 강약점을 스킬 단위로 분해한 점이 인상적입니다. 특히 같은 도메인 내에서도 스킬별 순위가 뒤집히는 현상은, 단일 지표로 에이전트를 평가할 때 놓칠 수 있는 정보를 잘 보여주네요.
- #web-agent
- #benchmark
- #process-analysis
- #yonsei
Yonsei University