Papers·1개월 전

Audio-Interaction: 실시간 청각 상호작용을 위한 통합 스트리밍 오디오 언어 모델

Zhifei Xie 팀이 항상 켜져 있는 perceive-decide-respond 루프로 실시간 오디오 명령을 따르는 통합 스트리밍 모델 Audio-Interaction을 제안했습니다. SoundFlow 프레임워크를 통해 데이터 구성, 학습, 배포까지 엔드투엔드로 구현했으며, 8개 벤치마크에서 기존 오프라인 LALM과 경쟁력 있는 성능을 유지하면서 실시간 ASR, 스트리밍 명령 수행, 사전 대처 같은 새로운 기능을 가능하게 했습니다. 단 2.6M 항목의 스트리밍 코퍼스 StreamAudio-2M으로 학습되었으며, Proactive-Sound-Bench로 평가했습니다.

실시간 오디오 상호작용을 위한 통합 스트리밍 오디오 언어 모델 Audio-Interaction이 공개되었습니다.

핵심 결론

통합 — 기존의 분리된 오프라인 LALM과 단일 태스크 스트리밍 모델을 하나의 온라인 LALM으로 통합했습니다.
성능 — 8개 벤치마크에서 기존 오프라인 LALM과 경쟁력 있는 성능을 유지하면서, 실시간 ASR, 스트리밍 명령 수행, 사전 대처 같은 새로운 기능을 추가했습니다.

방법

SoundFlow — perceive-decide-respond 루프를 데이터 구성, 학습, 배포까지 엔드투엔드로 구현하는 프레임워크입니다.
StreamAudio-2M — 2.6M 항목의 스트리밍 코퍼스로, 7가지 기본 능력과 28개 하위 태스크를 포함합니다.
비동기 저지연 추론 — 안정적인 실시간 상호작용을 위해 comprehension-aware training과 비동기 저지연 추론을 도입했습니다.

한계·조건

평가 — Proactive-Sound-Bench는 사전 대처 능력을 평가하기 위해 새로 구축되었으며, 기존 벤치마크와의 비교는 제한적입니다.
데이터 — StreamAudio-2M은 합성 데이터를 포함할 가능성이 있으며, 실제 환경에서의 일반화는 추가 검증이 필요합니다.
코드 — 현재 논문 공개 단계이며, 코드와 모델의 공개 여부는 확인되지 않았습니다.

편집자 한 줄

실시간 오디오 상호작용이라는 도메인을 체계화한 점이 인상적이지만, 실제 배포 환경에서의 지연 시간과 안정성에 대한 추가 실험이 필요해 보입니다.

#audio-language-model
#streaming
#real-time
#zhifei-xie

Zhifei Xie

원문 보기 →

Audio-Interaction: 실시간 청각 상호작용을 위한 통합 스트리밍 오디오 언어 모델

핵심 결론

방법

한계·조건

Comments