Papers·3일 전
SwanSphere: 파노라마 비디오와 텍스트로 실시간 공간 오디오 생성 — AR diffusion transformer + SVAC 학습

Zhejiang University 팀이 파노라마 비디오와 텍스트 프롬프트로 고충실도 공간 오디오를 실시간 스트리밍 생성하는 SwanSphere를 제안했습니다. 핵심은 인과적 AR diffusion transformer로, 지연 없이 고품질 생성을 가능하게 합니다. Spatial Video-Audio Contrastive (SVAC) 학습으로 비디오 인코더를 오디오 도메인에 정렬하고, 다중 목적 ODPO로 공간 인식을 강화했습니다. 공간 오디오 데이터 부족 문제를 해결하기 위해 자동 주석 파이프라인도 함께 공개했습니다. 단, 추론 시 파노라마 비디오 입력이 필요해 일반 동영상에는 바로 적용하기 어렵습니다.
Zhejiang University 팀이 파노라마 비디오와 텍스트로 실시간 공간 오디오를 생성하는 SwanSphere를 공개했습니다.
핵심 결론
- 태스크 — 파노라마 비디오→공간 오디오, 텍스트→공간 오디오 생성 모두에서 SOTA 달성.
- 개선폭 — 기존 대비 지연 시간은 1/10 수준으로 줄이면서 음질(FAD)은 유지 또는 개선.
방법
- 아키텍처 — 인과적 AR diffusion transformer로 스트리밍 생성 가능 — 한 번에 전체 시퀀스를 생성하지 않고 청크 단위로 처리.
- SVAC 학습 — 비디오 인코더를 오디오 도메인에 정렬하는 대조 학습으로 공간 정보를 효과적으로 캡처.
- ODPO — 다중 목적 온라인 직접 선호 최적화로 공간 정확도와 음질을 동시에 최적화.
- 데이터 — 공간 오디오 데이터 부족을 해결하기 위해 자동 주석 파이프라인을 구축, 상세한 공간 캡션 생성.
한계·조건
- 입력 — 파노라마 비디오(360°)가 필요해 일반 동영상에는 바로 적용 어려움.
- 리소스 — 논문에 명시된 추론 속도는 A100 기준 — 엣지 디바이스에서의 실시간성은 미검증.
- 코드 — 데모 페이지는 공개되었으나 코드 및 데이터셋 공개 여부는 미정.
편집자 한 줄
공간 오디오 생성에서 실시간성을 확보한 점이 인상적입니다. 다만 파노라마 비디오라는 입력 제약이 있어 실제 서비스 적용까지는 추가 연구가 필요해 보입니다.
- #spatial-audio
- #diffusion-transformer
- #video-to-audio
- #zhejiang-university
Zhejiang University