Ships·1년 전

Google DeepMind, Gemini 2.5 네이티브 오디오 기능 공개 — 실시간 대화·스타일 제어·도구 통합

Google DeepMind가 Gemini 2.5의 네이티브 오디오 대화 및 생성 기능을 상세 공개했다. 텍스트·이미지·오디오·비디오·코드를 통합 처리하는 멀티모달 모델로, 실시간 음성 대화에서 자연스러운 운율과 표현력을 제공하며 자연어 프롬프트로 억양·톤·속삭임까지 제어 가능하다. 또한 Google Search 등 외부 도구와 함수 호출을 대화 중에 활용할 수 있어 NotebookLM Audio Overviews와 Project Astra 등에 이미 적용 중이다. 다만 현재는 Gemini 2.5 Flash 프리뷰에서만 제공되며, 정식 출시 일정과 가격은 아직 발표되지 않았다.

#google-deepmind
#gemini-2.5
#audio
#multimodal
#real-time

Google DeepMind

원문 보기 →

Google DeepMind, Gemini 2.5 네이티브 오디오 기능 공개 — 실시간 대화·스타일 제어·도구 통합

Comments