Papers·5일 전
MineExplorer — MLLM 에이전트의 오픈월드 탐색 능력을 평가하는 벤치마크

중국 연구진이 Minecraft 환경에서 MLLM 에이전트의 오픈월드 탐색 능력을 평가하는 MineExplorer 벤치마크를 공개했습니다. ReAct 스타일의 능력 구성과 멀티에이전트 합성 워크플로우로 신뢰성 높은 태스크 인스턴스를 생성했으며, 실험 결과 강력한 MLLM도 단일 홉 태스크는 잘 처리하지만 다중 홉 태스크에서는 성능이 급락했습니다. 코드와 데이터셋은 GitHub에 공개되었습니다.
Minecraft라는 오픈월드에서 MLLM 에이전트의 탐색 능력을 체계적으로 평가하는 벤치마크가 나왔습니다.
핵심 결론
- 벤치마크 — MineExplorer는 Minecraft 기반의 오픈월드 탐색 벤치마크로, 단일 홉 및 다중 홉 태스크를 포함합니다.
- 주요 발견 — 강력한 MLLM(GPT-4V, Gemini 등)도 단일 홉 태스크는 잘 처리하지만, 숨겨진 전제 조건을 여러 단계에 걸쳐 조정해야 하는 다중 홉 태스크에서는 성능이 크게 떨어집니다.
- 모델 규모 — 더 큰 모델이나 thinking mode가 항상 더 나은 성능으로 이어지지는 않는 것으로 나타났습니다.
방법
- 태스크 설계 — Minecraft 특화 지식이 많이 필요한 원자 태스크를 필터링하고, ReAct 스타일의 능력 구성으로 암시적 다중 홉 태스크를 구성합니다.
- 멀티에이전트 합성 — 태스크 그래프, 샌드박스 장면, 규칙 기반 마일스톤 평가자를 공동 설계하는 멀티에이전트 합성 워크플로우를 사용해 신뢰성 높은 인스턴스를 생성합니다.
- 평가 — 인간 평가 결과, 멀티에이전트 합성 워크플로우가 단일 에이전트 베이스라인보다 훨씬 신뢰성 높은 인스턴스를 생성했습니다.
한계·조건
- 도메인 — Minecraft라는 특정 게임 환경에 국한되어 있어 일반 오픈월드로의 일반화는 추가 검증이 필요합니다.
- 코드·데이터 — GitHub에 공개되어 재현 가능합니다.
편집자 한 줄
오픈월드 탐색 능력을 평가한다는 점에서 기존의 단기 과제 중심 벤치마크와 차별화되네요. 다중 홉에서의 급격한 성능 저하가 인상적입니다.
- #multimodal
- #llm
- #minecraft
- #benchmark
- #exploration
Tianjie Ju