Papers·1개월 전

SEIG: 단일 이미지에서 Blender 프로그램으로 3D 장면 재구성 — VLM 기반 역그래픽스

Guangzhao He 연구팀이 단일 이미지에서 Blender 실행 가능 프로그램 형태로 3D 장면을 재구성하는 SEIG 프레임워크를 제안했습니다. 기존의 특화된 2D/3D 기반 모델이나 다중 뷰 없이, 사전 학습된 VLM을 에이전트로 활용해 기하, 재질, 조명 등을 단계적으로 추론합니다. 실험 결과, 단계적 분해가 재구성 충실도를 크게 향상시킴을 보였습니다. 단, 현재는 단순한 장면에 국한되며 복잡한 장면으로의 확장이 과제입니다.

단일 이미지로부터 편집 가능한 3D 장면을 Blender 프로그램 형태로 재구성하는 역그래픽스 접근법이 제안되었습니다.

핵심 결론

태스크 — 단일 이미지 → Blender 실행 코드로 3D 장면 재구성 (기하, 재질, 조명, 구성).
성능 — 단계적 재구성(SEIG)이 한 번에 생성하는 방식보다 pixel-level, perceptual, semantic 충실도 모두 우월.
데이터 — 합성 장면 및 실제 단순 장면에서 평가, 정량적 수치 제시.

방법

에이전트 — VLM (예: GPT-4V)을 에이전트로 사용, 단계별로 Blender Python 코드를 생성 및 수정.
단계 — 1) 초기 형상 추정 → 2) 재질 및 텍스처 → 3) 조명 및 환경 → 4) 미세 조정 순으로 진행.
각 단계에서 VLM이 현재 코드를 실행한 렌더링 결과를 관찰하고 다음 코드를 생성하는 방식입니다.

한계·조건

범위 — 단일 객체 또는 단순 배경 장면에 국한, 복잡한 다중 객체 장면은 아직 미해결.
의존성 — VLM의 코드 생성 능력에 크게 의존, 코드 실행 환경(Blender) 필요.
재현성 — 코드 공개 여부 불명, VLM의 비결정성으로 인한 재현 어려움 존재.

편집자 한 줄

VLM을 3D 재구성 에이전트로 활용한 점은 참신하지만, 현재는 단순 장면에 한정되어 실용성은 제한적입니다.

#inverse-graphics
#vlm
#blender
#3d-reconstruction
#agent

Guangzhao He

원문 보기 →

SEIG: 단일 이미지에서 Blender 프로그램으로 3D 장면 재구성 — VLM 기반 역그래픽스

핵심 결론

방법

한계·조건

Comments