Papers·어제
InteractWeb-Bench: 비전문가 사용자 조건에서 웹 생성 에이전트 평가 — MLLM 기반 에이전트의 blind execution 문제

멀티모달 LLM 기반 코딩 에이전트가 비전문가 사용자의 모호하고 품질이 낮은 명령을 처리할 때 발생하는 semantic misalignment 문제를 체계적으로 평가하는 벤치마크 InteractWeb-Bench를 소개합니다. 기존 벤치마크는 구조화된 입력과 정적 실행 환경을 가정했지만, 실제 개발에서는 사용자의 모호성·중복·모순 등이 포함된 명령으로 인해 에이전트가 의도 파악 없이 코드를 생성하는 blind execution에 빠지는 현상을 지적합니다. 네 가지 사용자 에이전트 유형과 페르소나 기반 명령 변조를 도입해 다양한 사용자 행동을 시뮬레이션하고, Clarify-Implement-Verify-Submit의 통합 액션 공간을 통해 반복적 의도 정제와 시각적 피드백 검증을 가능하게 했습니다. 실험 결과 최첨단 MLLM 기반 에이전트도 여전히 blind execution에 갇혀 의도 인식과 적응적 상호작용에 한계를 보였습니다.
- #multimodal-llm
- #code-generation
- #benchmark
- #website-generation
- #agent-evaluation
IP Intelligence