Papers·2일 전
Tsinghua IIGroup, MLLM 웹 페이지 생성 평가 벤치마크 WebRISE — 14개 모델 최고 65.6% 전환 유효성

Tsinghua IIGroup이 MLLM이 생성한 웹 페이지의 기능적 정확성을 평가하는 벤치마크 WebRISE를 공개했습니다. 기존 평가는 시각적 유사성이나 로컬 증거에 의존했지만, WebRISE는 요구사항을 Interaction Contract Graph(ICG)로 변환해 상태 전환과 DOM/시각 어서션을 검증합니다. 442개 태스크, 5,495개 전환, 5,271개 요구사항 체크로 구성되며, 14개 MLLM 중 최고 성능 모델도 전환 유효성 65.6%, 요구사항 커버리지 66.3%에 그쳤고, 시각 품질이 행동 정확성과 무관한 사례(Qwen3.6-35B-A3B: V=80.8, T=15.5)도 발견됐습니다.
Tsinghua IIGroup이 MLLM의 웹 페이지 생성 능력을 기능적 정확성 측면에서 평가하는 벤치마크 WebRISE를 제안했습니다.
핵심 결론
- 벤치 규모 — 442개 태스크, 5,495개 전환, 5,271개 요구사항 체크 — 5가지 입력 모달리티(Text, Markdown, Sketch, Image, Video) 포함.
- 최고 성능 — 14개 MLLM 중 가장 강력한 모델도 전환 유효성 65.6%, 요구사항 커버리지 66.3%에 불과.
- 시각 vs 행동 — 시각 품질(V)과 행동 정확성(T) 간 상관관계 낮음 — Qwen3.6-35B-A3B Markdown: V=80.8, T=15.5.
방법
- ICG — 태스크 요구사항을 관찰 가능한 상태, 사용자 의도 전환, DOM/시각 어서션으로 구성된 Interaction Contract Graph로 컴파일.
- 모달리티 효과 — Video 입력이 가장 강한 상호작용 신호 제공 (Text 대비 암묵적 커버리지 +10.6pp).
- 결함 탐지 — ICG 기반 점수는 체크포인트 스타일 평가보다 상태 오류를 2~16배 더 잘 탐지.
한계·조건
- 암묵적 제약(implicit constraints)은 여전히 모든 모델에서 낮은 커버리지를 보이며 해결 과제로 남음.
- 벤치마크는 브라우저 실행 기반이므로 평가 비용이 높은 편입니다.
편집자 한 줄
시각 품질과 기능 정확성의 괴리를 정량적으로 보여준 점이 인상적입니다. MLLM 기반 웹 생성 평가의 기준점이 될 만합니다.
- #mllm
- #web-generation
- #benchmark
- #tsinghua
- #evaluation
Tsinghua IIGroup