← Back to feed
Papers·어제

InteractWeb-Bench: 비전문가 사용자 조건에서 웹 생성 에이전트 평가 — MLLM 기반 에이전트의 blind execution 문제

InteractWeb-Bench: 비전문가 사용자 조건에서 웹 생성 에이전트 평가 — MLLM 기반 에이전트의 blind execution 문제

멀티모달 LLM 기반 코딩 에이전트가 비전문가 사용자의 모호하고 품질이 낮은 명령을 처리할 때 발생하는 semantic misalignment 문제를 체계적으로 평가하는 벤치마크 InteractWeb-Bench를 소개합니다. 기존 벤치마크는 구조화된 입력과 정적 실행 환경을 가정했지만, 실제 개발에서는 사용자의 모호성·중복·모순 등이 포함된 명령으로 인해 에이전트가 의도 파악 없이 코드를 생성하는 blind execution에 빠지는 현상을 지적합니다. 네 가지 사용자 에이전트 유형과 페르소나 기반 명령 변조를 도입해 다양한 사용자 행동을 시뮬레이션하고, Clarify-Implement-Verify-Submit의 통합 액션 공간을 통해 반복적 의도 정제와 시각적 피드백 검증을 가능하게 했습니다. 실험 결과 최첨단 MLLM 기반 에이전트도 여전히 blind execution에 갇혀 의도 인식과 적응적 상호작용에 한계를 보였습니다.

IP Intelligence

Comments

— 첫 댓글을 남겨보세요 —