Papers·1개월 전

DeepMind, VLM 기반 절차적 3D 모델링 벤치마크 3DCodeBench 공개 — 12개 모델 평가 결과 API 불일치가 주요 실패 원인

DeepMind 팀이 VLM 에이전트의 절차적 3D 모델링 능력을 평가하는 벤치마크 3DCodeBench를 공개했습니다. 12개 최신 VLM을 대상으로 텍스트/이미지 프롬프트를 3D 모델링 소프트웨어용 코드로 변환하는 태스크를 평가한 결과, 대부분의 실패는 API 불일치에서 발생했으며 성공적인 렌더링에서도 기하 요소가 분리되거나 떠 있는 문제가 관찰되었습니다. 테스트-타임 스케일링(높은 thinking budget, 다중 턴 개선)이 전반적 성능을 향상시킨 점도 확인되었습니다.

DeepMind가 VLM 에이전트가 절차적 3D 모델링 코드를 얼마나 잘 생성하는지 평가하는 벤치마크 3DCodeBench를 공개했습니다.

핵심 결론

태스크 — 텍스트/이미지 프롬프트를 3D 모델링 소프트웨어(Blender 등)용 절차적 코드로 변환하는 능력을 평가.
모델 — GPT-4o, Claude 3.5, Gemini 1.5 등 12개 VLM 평가.
주요 발견 — 실패의 주원인은 API 불일치이며, 성공 렌더링에서도 기하 요소 분리·부유 문제가 흔함.

방법

벤치마크 구성 — 다양한 복잡도의 3D 객체에 대한 멀티모달 프롬프트, 참조 코드, 3D 객체 트리플릿을 포함한 대규모 데이터셋.
평가 방식 — 자동 메트릭 외에 쌍별 인간 선호도 기반 랭킹 플랫폼 3DCodeArena를 구축하여 지각 품질 평가.
테스트-타임 스케일링 — 높은 thinking budget과 다중 턴 개선(refinement)이 전반적 성능을 향상시킴.

한계·조건

데이터 — 고품질 절차적 코딩 데이터의 부족이 상용 VLM 발전의 주요 병목으로 지적됨.
환경 — 효과적인 절차적 모델링을 위해서는 고충실도 피드백을 제공하는 강건한 실행 환경이 필수.
공개 — 3DCodeBench 데이터셋, 평가 프로토콜, 3DCodeArena 플랫폼을 공개.

편집자 한 줄

절차적 3D 모델링은 게임·영화 등 산업에서 수요가 높은데, VLM이 API 사용법을 제대로 익히지 못하면 실용성이 떨어진다는 점을 잘 보여주는 벤치마크네요.

#3d-modeling
#vlm
#benchmark
#deepmind
#procedural-generation

Deepmind

원문 보기 →

DeepMind, VLM 기반 절차적 3D 모델링 벤치마크 3DCodeBench 공개 — 12개 모델 평가 결과 API 불일치가 주요 실패 원인

핵심 결론

방법

한계·조건

Comments