Papers·3개월 전

MoZoo: 동물 근육·털 시뮬레이션을 생성하는 확산 모델 — 조악한 메시에서 고해상도 비디오로

Orange Team이 조악한 3D 메시(mesh)로부터 사실적인 동물 비디오를 생성하는 확산 기반 동역학 솔버 MoZoo를 공개했습니다. RAR-RoPE와 비대칭 분리 어텐션(Asymmetric Decoupled Attention)으로 움직임 정렬과 참조 정보 분리를 동시에 처리하며, 합성-실물 파이프라인 MoZoo-Data로 데이터 부족을 해결했습니다. MoZooBench(120쌍) 평가에서 다양한 골격과 자세에 대해 높은 프레임 일관성과 털 디테일을 보였습니다.

Orange Team이 조악한 3D 메시로부터 사실적인 동물 비디오를 생성하는 확산 기반 동역학 솔버 MoZoo를 공개했습니다.

핵심 결론

태스크 — 입력 메시(120개 mesh-video 쌍)로부터 고해상도 동물 비디오 생성.
평가 — MoZooBench에서 다양한 골격·자세에 대해 털 디테일과 시간적 일관성 모두 우수.
비교 — 기존 diffusion 기반 방법 대비 구조적 일관성과 프레임 간 연속성에서 큰 격차.

방법

RAR-RoPE — Role-Aware RoPE: 역할 기반 인덱스 재매핑으로 움직임 정렬을 동기화하고, 고정 시간 오프셋으로 참조 정보를 분리.
비대칭 분리 어텐션 — 잠재 시퀀스를 분할하여 단방향 정보 흐름을 강제, 특징 간섭을 막고 계산 효율 향상.
데이터 — MoZoo-Data: 렌더링 엔진과 역매핑(inverse mapping)으로 합성-실물 쌍 대규모 데이터셋 구축.

한계·조건

데이터 — 120쌍의 MoZooBench는 규모가 작아 일반화 검증에 한계.
계산량 — 고해상도 비디오 생성에 필요한 추론 시간이나 GPU 메모리 정보는 공개되지 않음.
코드 — 현재 Hugging Face 논문만 공개, 코드 및 데이터셋 공개 여부 미정.

편집자 한 줄

합성 데이터 파이프라인으로 데이터 부족을 해결한 점은 흥미롭지만, 실제 동물 영상과의 격차는 추가 검증이 필요해 보입니다.

#diffusion
#animal-simulation
#fur-dynamics
#orange-team

Orange Team

원문 보기 →

MoZoo: 동물 근육·털 시뮬레이션을 생성하는 확산 모델 — 조악한 메시에서 고해상도 비디오로

핵심 결론

방법

한계·조건

Comments