Papers·1개월 전
Listen-Write-Speak — 음성 LLM이 듣고, 쓰고, 말하는 삼중 출력 패러다임

기존 음성 LLM은 음성 응답만 출력 가능해 코드 생성·구조적 분석·다단계 추론 같은 텍스트 고유 능력을 실시간 대화에서 활용하지 못했습니다. Listen-Write-Speak (LWS)는 단일 autoregressive LLM이 사용자 음성을 듣는 동안 가시적인 자유 형식 텍스트를 주 출력으로 쓰고, 동시에 음성 응답을 내는 tri-channel 방식을 제안합니다. Token Schema 만으로 아키텍처 변경 없이 구현되며, Full-Duplex-Bench에서 강력한 전이중 상호작용을 보이고 VoiceBench AlpacaEval 4.72, 쓰기-말하기 일관성 92.6%를 달성했습니다. 단, 합성 데이터 기반 2단계 파이프라인으로 학습되어 실제 사용자 발화에 대한 일반화는 추가 검증이 필요합니다.
음성 LLM이 더 이상 말하기에만 갇히지 않습니다 — 듣고, 쓰고, 말하는 삼중 출력을 하나의 모델로 구현한 LWS가 공개됐습니다.
핵심 결론
- 태스크 — 음성 기반 전이중 대화에서 텍스트를 1차 출력 채널로 사용하는 새로운 패러다임 제안.
- 수치 — Full-Duplex-Bench 전이중 상호작용 우수, VoiceBench AlpacaEval 4.72, 쓰기-말하기 일관성 92.6%.
- 비교 — 내부 ablation (텍스트 출력 없음, 단순 결합 등) 대비 URO-Bench에서 일관된 우위.
방법
- Token Schema — 아키텍처 변경 없이 토큰 스키마만으로 듣기·쓰기·말하기를 동시에 수행 — 기존 LLM에 바로 적용 가능.
- 데이터 파이프라인 — 2단계 합성 데이터: 초 단위 인지 주석을 입력 타임라인과 정렬하여 학습. 코드·데이터셋 공개 예정.
- 공유 문맥 — 세 채널이 하나의 causal attention context를 공유해 실시간 일관성 유지.
한계·조건
- 데이터 — 합성 데이터 기반 학습으로 실제 사용자 발화 패턴에 대한 일반화는 추가 검증 필요.
- 모델 규모 — 논문에서 사용한 모델 크기와 compute 요구량이 명시되지 않아 재현성에 한계.
- 벤치마크 — Full-Duplex-Bench와 VoiceBench 등 특정 벤치에 국한된 평가 — 실제 서비스 환경에서의 견고성은 미확인.
편집자 한 줄
Token Schema 만으로 아키텍처 변경 없이 구현했다는 점이 실용적입니다. 다만 합성 데이터 의존도가 높아 실제 대화 데이터로의 확장이 관건이겠네요.
- #speech-llm
- #full-duplex
- #multimodal
- #token-schema
Luoyuan Zhang