← Back to feed
Papers·3일 전

SwanSphere: 파노라마 비디오와 텍스트로 실시간 공간 오디오 생성 — AR diffusion transformer + SVAC 학습

SwanSphere: 파노라마 비디오와 텍스트로 실시간 공간 오디오 생성 — AR diffusion transformer + SVAC 학습

Zhejiang University 팀이 파노라마 비디오와 텍스트 프롬프트로 고충실도 공간 오디오를 실시간 스트리밍 생성하는 SwanSphere를 제안했습니다. 핵심은 인과적 AR diffusion transformer로, 지연 없이 고품질 생성을 가능하게 합니다. Spatial Video-Audio Contrastive (SVAC) 학습으로 비디오 인코더를 오디오 도메인에 정렬하고, 다중 목적 ODPO로 공간 인식을 강화했습니다. 공간 오디오 데이터 부족 문제를 해결하기 위해 자동 주석 파이프라인도 함께 공개했습니다. 단, 추론 시 파노라마 비디오 입력이 필요해 일반 동영상에는 바로 적용하기 어렵습니다.

Zhejiang University 팀이 파노라마 비디오와 텍스트로 실시간 공간 오디오를 생성하는 SwanSphere를 공개했습니다.

핵심 결론

  • 태스크파노라마 비디오→공간 오디오, 텍스트→공간 오디오 생성 모두에서 SOTA 달성.
  • 개선폭기존 대비 지연 시간은 1/10 수준으로 줄이면서 음질(FAD)은 유지 또는 개선.

방법

  • 아키텍처인과적 AR diffusion transformer로 스트리밍 생성 가능 — 한 번에 전체 시퀀스를 생성하지 않고 청크 단위로 처리.
  • SVAC 학습비디오 인코더를 오디오 도메인에 정렬하는 대조 학습으로 공간 정보를 효과적으로 캡처.
  • ODPO다중 목적 온라인 직접 선호 최적화로 공간 정확도와 음질을 동시에 최적화.
  • 데이터공간 오디오 데이터 부족을 해결하기 위해 자동 주석 파이프라인을 구축, 상세한 공간 캡션 생성.

한계·조건

  • 입력파노라마 비디오(360°)가 필요해 일반 동영상에는 바로 적용 어려움.
  • 리소스논문에 명시된 추론 속도는 A100 기준 — 엣지 디바이스에서의 실시간성은 미검증.
  • 코드데모 페이지는 공개되었으나 코드 및 데이터셋 공개 여부는 미정.

편집자 한 줄

공간 오디오 생성에서 실시간성을 확보한 점이 인상적입니다. 다만 파노라마 비디오라는 입력 제약이 있어 실제 서비스 적용까지는 추가 연구가 필요해 보입니다.

  • #spatial-audio
  • #diffusion-transformer
  • #video-to-audio
  • #zhejiang-university
Zhejiang University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —