Papers·1개월 전

SwanSphere: 파노라마 비디오와 텍스트로 실시간 공간 오디오 생성 — AR diffusion transformer + SVAC 학습

Zhejiang University 팀이 파노라마 비디오와 텍스트 프롬프트로 고충실도 공간 오디오를 실시간 스트리밍 생성하는 SwanSphere를 제안했습니다. 핵심은 인과적 AR diffusion transformer로, 지연 없이 고품질 생성을 가능하게 합니다. Spatial Video-Audio Contrastive (SVAC) 학습으로 비디오 인코더를 오디오 도메인에 정렬하고, 다중 목적 ODPO로 공간 인식을 강화했습니다. 공간 오디오 데이터 부족 문제를 해결하기 위해 자동 주석 파이프라인도 함께 공개했습니다. 단, 추론 시 파노라마 비디오 입력이 필요해 일반 동영상에는 바로 적용하기 어렵습니다.

Zhejiang University 팀이 파노라마 비디오와 텍스트로 실시간 공간 오디오를 생성하는 SwanSphere를 공개했습니다.

핵심 결론

태스크 — 파노라마 비디오→공간 오디오, 텍스트→공간 오디오 생성 모두에서 SOTA 달성.
개선폭 — 기존 대비 지연 시간은 1/10 수준으로 줄이면서 음질(FAD)은 유지 또는 개선.

방법

아키텍처 — 인과적 AR diffusion transformer로 스트리밍 생성 가능 — 한 번에 전체 시퀀스를 생성하지 않고 청크 단위로 처리.
SVAC 학습 — 비디오 인코더를 오디오 도메인에 정렬하는 대조 학습으로 공간 정보를 효과적으로 캡처.
ODPO — 다중 목적 온라인 직접 선호 최적화로 공간 정확도와 음질을 동시에 최적화.
데이터 — 공간 오디오 데이터 부족을 해결하기 위해 자동 주석 파이프라인을 구축, 상세한 공간 캡션 생성.

한계·조건

입력 — 파노라마 비디오(360°)가 필요해 일반 동영상에는 바로 적용 어려움.
리소스 — 논문에 명시된 추론 속도는 A100 기준 — 엣지 디바이스에서의 실시간성은 미검증.
코드 — 데모 페이지는 공개되었으나 코드 및 데이터셋 공개 여부는 미정.

편집자 한 줄

공간 오디오 생성에서 실시간성을 확보한 점이 인상적입니다. 다만 파노라마 비디오라는 입력 제약이 있어 실제 서비스 적용까지는 추가 연구가 필요해 보입니다.

#spatial-audio
#diffusion-transformer
#video-to-audio
#zhejiang-university

Zhejiang University

원문 보기 →

SwanSphere: 파노라마 비디오와 텍스트로 실시간 공간 오디오 생성 — AR diffusion transformer + SVAC 학습

핵심 결론

방법

한계·조건

Comments