Papers·1주 전
MMSkills: 멀티모달 스킬 패키지로 GUI·게임 에이전트 성능 향상 — 벤치마크 전반 개선

상하이 자오퉁 대학 연구팀이 시각 에이전트를 위한 멀티모달 스킬 패키지 MMSkills를 제안했습니다. 텍스트 프롬프트나 코드에만 의존하는 기존 스킬과 달리, 각 MMSkill은 텍스트 절차와 함께 런타임 상태 카드, 멀티뷰 키프레임을 포함해 시각적 맥락을 활용한 의사결정을 지원합니다. 공개 상호작용 궤적으로부터 자동 생성되며, 추론 시 임시 브랜치에서 상태 카드와 키프레임을 검사해 메인 에이전트에 구조화된 가이던스를 제공합니다. GUI 및 게임 기반 시각 에이전트 벤치마크에서 프론티어 및 소형 멀티모달 모델 모두 일관된 성능 향상을 보였습니다.
- #multimodal
- #agents
- #skill-package
- #gui
- #game
Shanghai Jiaotong University 1(NOT OFFICIAL)