Papers·6일 전
DEMON: 실시간 확산 엔진으로 음악 생성 연주 — RTX 5090에서 초당 12.3회 디코딩

Daydream 팀이 실시간 확산 엔진 DEMON을 발표했습니다. ACE-Step 1.5와 StreamDiffusion의 ring-buffer 아키텍처를 기반으로 TensorRT 가속을 적용해, 단일 RTX 5090에서 60초 음악 기준 초당 12.3회 디코더 완료를 달성합니다. 네 가지 메커니즘(슬롯별 이질적 디노이즈 스케줄링, 공유 가변 상태, 프레임별 소스 블렌딩, 윈도우드 VAE 디코드)을 통해 디노이징 파라미터를 실시간 연주 컨트롤로 사용할 수 있게 했습니다. 단 ring-buffer의 드레인 속도가 성능 하한을 결정하며, 생산 환경 ring-depth 4에서는 초당 11.3회 생성입니다.
DEMON은 디노이징 과정을 라이브 악기처럼 연주할 수 있게 만든 실시간 확산 엔진입니다.
핵심 결론
- 성능 — RTX 5090 단일 GPU에서 60초 음악 기준 초당 12.3회 디코더 완료, 생산 ring-depth 4에서는 11.3회/초.
- 지연 — 디노이징 파라미터 변경이 실시간 연주 컨트롤로 가능하나, ring-buffer 드레인 속도가 최소 지연 하한을 설정합니다.
방법
- 슬롯별 스케줄 — 각 ring-buffer 슬롯이 독립적인 timestep 스케줄을 가져, 디노이즈 슬라이더 이동 시 큐를 초기화하지 않고 추적 가능.
- 공유 상태 — 모든 solver 단계에서 참조되는 파라미터는 next-tick 효과를 내, ring-buffer 드레인을 우회.
- 소스 블렌딩 — SDE re-noise 단계에서 프레임별 변환 강도 축을 추가해 스칼라 디노이즈 스케줄링을 보완.
- VAE 가속 — 수용 필드 분석 기반 윈도우드 VAE 디코드로 8.0배 속도 향상.
한계·조건
- 하드웨어 — 벤치마크는 RTX 5090 기준이며, 저사양 GPU에서는 성능이 크게 떨어질 수 있습니다.
- 지연 하한 — ring-buffer 드레인 속도가 S 디노이징 스텝만큼의 지연을 강제합니다.
- 코드 — 현재 논문과 데모만 공개, 코드 및 모델 가중치 공개 여부는 미정.
편집자 한 줄
실시간 음악 생성에서 파라미터를 연주 컨트롤로 쓴다는 발상이 흥미롭습니다. 다만 RTX 5090 의존성이 높아 실제 무대에서 쓰이려면 최적화가 더 필요해 보입니다.
- #diffusion
- #real-time
- #music-generation
- #tensorrt
- #daydream
Daydream