Papers·5일 전
Skill-3D: 장면 인식 도구 사용 스킬로 3D 추론 성능 78% 향상

Zhejiang University 연구팀이 3D 공간 추론에서 MLLM 에이전트의 도구 사용을 최적화하는 Skill-3D 프레임워크를 제안했습니다. 기존 에이전트는 장면에 관계없이 동일한 도구 사용 전략을 적용해 성능이 제한적이었으나, Skill-3D는 성공/실패 궤적을 장면 메모리에 저장하고 유사 장면에서 재사용 가능한 스킬로 증류합니다. VSI-Bench에서 도구 사용률이 39%에서 78%로 향상되었고, Gemini-3-Flash는 MMSI-Bench에서 67% 개선되었습니다. 단, 실험은 특정 벤치마크에 국한되어 있으며, 코드 공개 여부는 아직 확인되지 않았습니다.
Zhejiang University 연구팀이 3D 공간 추론에서 MLLM 에이전트의 도구 사용을 최적화하는 Skill-3D 프레임워크를 제안했습니다.
핵심 결론
- 도구 사용률 — VSI-Bench에서 39% → 78%로 향상.
- Gemini-3-Flash — MMSI-Bench에서 67% 개선.
- Qwen3-VL-8B — VSI-Bench에서 43% 향상 (agentic post-training 적용 시).
방법
- 장면 메모리 — 에이전트의 도구 사용 궤적을 장면별로 저장.
- 스킬 증류 — 유사 장면의 성공 궤적을 집계하여 재사용 가능한 스킬로 만들고, 실패 사례는 교훈으로 첨부.
- 유사 장면 재발생 시 해당 스킬을 주입하여 에이전트를 안내하고, 새로운 궤적으로 메모리와 스킬 라이브러리를 공진화시킵니다.
한계·조건
- 벤치마크 — VSI-Bench, MMSI-Bench 등 특정 3D 벤치에 국한되어 일반화 검증이 필요.
- 코드 — 현재 코드 공개 여부는 확인되지 않았습니다.
편집자 한 줄
장면 인식 스킬 학습이라는 아이디어는 직관적이면서도 효과적이네요. 다만 벤치마크 외 일반 3D 환경에서도 통할지 후속 연구가 궁금합니다.
- #3d-reasoning
- #tool-use
- #mllm
- #zhejiang-university
Zhejiang University