← Back to feed
Papers·5일 전

MineExplorer — MLLM 에이전트의 오픈월드 탐색 능력을 평가하는 벤치마크

MineExplorer — MLLM 에이전트의 오픈월드 탐색 능력을 평가하는 벤치마크

중국 연구진이 Minecraft 환경에서 MLLM 에이전트의 오픈월드 탐색 능력을 평가하는 MineExplorer 벤치마크를 공개했습니다. ReAct 스타일의 능력 구성과 멀티에이전트 합성 워크플로우로 신뢰성 높은 태스크 인스턴스를 생성했으며, 실험 결과 강력한 MLLM도 단일 홉 태스크는 잘 처리하지만 다중 홉 태스크에서는 성능이 급락했습니다. 코드와 데이터셋은 GitHub에 공개되었습니다.

Minecraft라는 오픈월드에서 MLLM 에이전트의 탐색 능력을 체계적으로 평가하는 벤치마크가 나왔습니다.

핵심 결론

  • 벤치마크MineExplorer는 Minecraft 기반의 오픈월드 탐색 벤치마크로, 단일 홉 및 다중 홉 태스크를 포함합니다.
  • 주요 발견강력한 MLLM(GPT-4V, Gemini 등)도 단일 홉 태스크는 잘 처리하지만, 숨겨진 전제 조건을 여러 단계에 걸쳐 조정해야 하는 다중 홉 태스크에서는 성능이 크게 떨어집니다.
  • 모델 규모더 큰 모델이나 thinking mode가 항상 더 나은 성능으로 이어지지는 않는 것으로 나타났습니다.

방법

  • 태스크 설계Minecraft 특화 지식이 많이 필요한 원자 태스크를 필터링하고, ReAct 스타일의 능력 구성으로 암시적 다중 홉 태스크를 구성합니다.
  • 멀티에이전트 합성태스크 그래프, 샌드박스 장면, 규칙 기반 마일스톤 평가자를 공동 설계하는 멀티에이전트 합성 워크플로우를 사용해 신뢰성 높은 인스턴스를 생성합니다.
  • 평가인간 평가 결과, 멀티에이전트 합성 워크플로우가 단일 에이전트 베이스라인보다 훨씬 신뢰성 높은 인스턴스를 생성했습니다.

한계·조건

  • 도메인Minecraft라는 특정 게임 환경에 국한되어 있어 일반 오픈월드로의 일반화는 추가 검증이 필요합니다.
  • 코드·데이터GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

오픈월드 탐색 능력을 평가한다는 점에서 기존의 단기 과제 중심 벤치마크와 차별화되네요. 다중 홉에서의 급격한 성능 저하가 인상적입니다.

  • #multimodal
  • #llm
  • #minecraft
  • #benchmark
  • #exploration
Tianjie Ju
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —