Papers·어제
ByteDance FLUX3D — 이미지→3DGS 생성에서 2D-3D 정렬 병목 해소, SOTA 대비 외관 충실도 20%↑

ByteDance 팀이 이미지→3DGS 생성에서 고주파 디테일 손실의 두 가지 구조적 병목(표현 병목, 교차 모달 대응 병목)을 해결한 FLUX3D를 공개했습니다. Diffusion-Aligned Structured Latents(DA-SLAT)로 2D 특징을 재설계하고, Sparse-structure Multimodal Diffusion Transformer(SMDiT)와 Modal-Aware RoPE를 도입해 sparse 3D voxel latent와 dense 2D token 간 정렬을 개선했습니다. 벤치마크에서 외관 충실도가 SOTA 대비 크게 향상되었으나, 3DGS 생성 자체의 계산 비용은 여전히 높은 편입니다.
ByteDance 팀이 이미지→3DGS 생성에서 고주파 디테일 손실의 두 가지 구조적 병목을 해결한 FLUX3D를 공개했습니다.
핵심 결론
- 태스크 — 단일 이미지로부터 3D Gaussian Splatting(3DGS) 자산을 생성하는 문제.
- 개선 — 외관 충실도에서 기존 SOTA 대비 유의미한 향상 (PSNR, LPIPS 등 지표).
- 벤치 — 표준 3DGS 생성 벤치마크에서 일관된 우위, 특히 고주파 텍스처 영역에서 차이가 큽니다.
방법
- DA-SLAT — 기존 discriminative 2D 특징 대신 diffusion 정렬된 구조화된 잠재 변수를 도입, 재구성 신호를 보존.
- SMDiT — Sparse-structure Multimodal Diffusion Transformer — dense 2D token과 sparse 3D voxel latent를 정렬하는 cross-attention 메커니즘.
- MARoPE — Modal-Aware Rotary Positional Embedding — 2D와 3D의 위치 인코딩을 모달별로 분리하여 기하 무관 정렬 달성.
- 디코더 전용 아키텍처로 3DGS 재구성 충실도를 높인 점도 특징입니다.
한계·조건
- 계산량 — 3DGS 생성 자체가 고해상도에서 여전히 많은 메모리와 시간을 요구합니다.
- 범위 — 단일 객체 중심 벤치마크에서 검증, 복잡한 장면 일반화는 추가 연구 필요.
- 코드 — 현재 논문과 Hugging Face Papers 페이지에서 abstract와 figure만 공개, 코드는 미공개 상태.
편집자 한 줄
2D-3D 정렬 문제를 diffusion 프레임워크 안에서 깔끔하게 푼 점이 인상적입니다. 다만 3DGS 생성 파이프라인 전체의 실용성은 여전히 GPU 메모리 제약에 달려 있어 보입니다.
- #3d-generation
- #gaussian-splatting
- #diffusion
- #bytedance
- #sparse-voxel
ByteDance