Papers·1개월 전

MMG2Skill: 웹 가이드를 에이전트 실행 스킬로 변환하는 폐루프 프레임워크 — 6개 VLM 백본에서 +12.8~25.3%p 향상

NJU-LINK Lab이 인간용 멀티모달 가이드를 에이전트 실행 가능 스킬로 변환하는 문제를 정식화하고, 최초의 벤치마크 MMG2Skill-Bench와 폐루프 프레임워크 MMG2Skill을 제안했습니다. 가이드를 구조화된 스킬로 컴파일하고, 궤적 기반 근본 원인 피드백으로 스킬을 수정하는 방식으로, GUI 제어, 오픈월드 게임플레이, 전략 카드 게임에서 6개 VLM 백본 모두에서 베이스라인 대비 일관된 성능 향상을 보였습니다. 다만 모든 태스크가 성공 신호를 명확히 정의할 수 있는 환경에 국한된다는 한계가 있습니다.

웹 상의 풍부한 절차적 지식을 에이전트가 직접 실행할 수 있는 스킬로 변환하는 MMG2Skill 프레임워크가 공개되었습니다.

핵심 결론

벤치 — MMG2Skill-Bench는 GUI 제어, 오픈월드 게임, 전략 카드 게임을 포함한 최초의 guide-to-skill 벤치마크입니다.
성능 — 6개 VLM 백본(LLaVA, Qwen-VL 등)에서 MMG2Skill이 모든 모델-도메인 조합에서 베이스라인 대비 +12.8~25.3%p 향상.

방법

컴파일 — 원시 가이드를 편집 가능한 구조화된 스킬(조건-행동 쌍)로 변환합니다.
실행 — 고정된 VLM 에이전트가 이 스킬을 조건으로 태스크를 수행합니다.
수정 — 궤적 수준의 근본 원인 피드백을 통해 스킬을 지속적으로 개선하며, 벤치마크 점수는 사용하지 않습니다.

한계·조건

환경 — 성공 신호를 명확히 정의할 수 있는 태스크에만 적용 가능합니다.
분석 — 성공 추론 가능 태스크에서 analyzer 기반 조기 종료가 25~53% 시도 절감을 보였으나, 신호 보정이 필요합니다.
코드 — 벤치마크와 프레임워크는 GitHub에 공개 예정입니다.

편집자 한 줄

원시 가이드를 직접 프롬프트에 넣으면 오히려 성능이 떨어진다는 ablation 결과가 인상적이네요. 구조화와 궤적 피드백이 모두 필요하다는 점을 실험적으로 보여줍니다.

#guide-to-skill
#agent
#benchmark
#vlm
#nju

NJU-LINK Lab

원문 보기 →

MMG2Skill: 웹 가이드를 에이전트 실행 스킬로 변환하는 폐루프 프레임워크 — 6개 VLM 백본에서 +12.8~25.3%p 향상

핵심 결론

방법

한계·조건

Comments