← Back to feed
Papers·5일 전

Skill-3D: 장면 인식 도구 사용 스킬로 3D 추론 성능 78% 향상

Skill-3D: 장면 인식 도구 사용 스킬로 3D 추론 성능 78% 향상

Zhejiang University 연구팀이 3D 공간 추론에서 MLLM 에이전트의 도구 사용을 최적화하는 Skill-3D 프레임워크를 제안했습니다. 기존 에이전트는 장면에 관계없이 동일한 도구 사용 전략을 적용해 성능이 제한적이었으나, Skill-3D는 성공/실패 궤적을 장면 메모리에 저장하고 유사 장면에서 재사용 가능한 스킬로 증류합니다. VSI-Bench에서 도구 사용률이 39%에서 78%로 향상되었고, Gemini-3-Flash는 MMSI-Bench에서 67% 개선되었습니다. 단, 실험은 특정 벤치마크에 국한되어 있으며, 코드 공개 여부는 아직 확인되지 않았습니다.

Zhejiang University 연구팀이 3D 공간 추론에서 MLLM 에이전트의 도구 사용을 최적화하는 Skill-3D 프레임워크를 제안했습니다.

핵심 결론

  • 도구 사용률VSI-Bench에서 39% → 78%로 향상.
  • Gemini-3-FlashMMSI-Bench에서 67% 개선.
  • Qwen3-VL-8BVSI-Bench에서 43% 향상 (agentic post-training 적용 시).

방법

  • 장면 메모리에이전트의 도구 사용 궤적을 장면별로 저장.
  • 스킬 증류유사 장면의 성공 궤적을 집계하여 재사용 가능한 스킬로 만들고, 실패 사례는 교훈으로 첨부.
  • 유사 장면 재발생 시 해당 스킬을 주입하여 에이전트를 안내하고, 새로운 궤적으로 메모리와 스킬 라이브러리를 공진화시킵니다.

한계·조건

  • 벤치마크VSI-Bench, MMSI-Bench 등 특정 3D 벤치에 국한되어 일반화 검증이 필요.
  • 코드현재 코드 공개 여부는 확인되지 않았습니다.

편집자 한 줄

장면 인식 스킬 학습이라는 아이디어는 직관적이면서도 효과적이네요. 다만 벤치마크 외 일반 3D 환경에서도 통할지 후속 연구가 궁금합니다.

  • #3d-reasoning
  • #tool-use
  • #mllm
  • #zhejiang-university
Zhejiang University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —