Nova Sonic

Nova Sonic – 亞馬遜推出的新型生成式 AI 語音模型

Nova Sonic

Nova Sonic 是亞馬遜推出的一款先進生成式 AI 語音模型，旨在將語音理解與生成能力完美結合。該模型能夠根據說話者的語調和風格等聲學上下文，靈活地調整語音響應，使對話更顯自然。Nova Sonic 目前支持多種語言，尤其在美國英語和英國英語的語音理解上表現卓越，支持多樣的說話風格和口音。

Nova Sonic是什么

Nova Sonic 是亞馬遜推出的一款新型生成式 AI 語音模型。它將語音理解和生成能力融合于一體，能夠根據說話者的語調與風格等聲學背景，生成更自然的語音回應。該模型支持多語言，尤其在美國英語和英國英語的語音理解方面表現突出，平均單詞錯誤率低至4.2%。在多語言 LibriSpeech 基準測試中，Nova Sonic 的表現優于 OpenAI 的 GPT-4o-transcribe 模型。

Nova Sonic的主要功能

原生語音處理：高效處理語音輸入，生成流暢自然的語音輸出，提升用戶交互體驗。
高準確性：憑借 HiFi 語音識別技術，即使在嘈雜環境或發音不清晰的情況下，也能準確理解用戶意圖。在多語言 LibriSpeech 基準測試中，英語、法語、意大利語、德語和西班牙語的平均單詞錯誤率僅為 4.2%。
自然對話能力：能夠捕捉說話者的停頓和打斷，在合適時機進行回應，使對話更加流暢自然。
實時信息獲取：智能判斷何時從互聯網獲取實時信息，為用戶提供最佳解決方案。
強大的請求路由能力：根據上下文信息，將用戶請求靈活路由到不同的 API，調用互聯網信息、解析專有數據源或在外部應用中執行操作。
文本記錄生成：能夠將用戶的語音轉換為文本記錄，開發者可將這些文本應用于多種場景。
低延遲與高性價比：平均感知延遲僅為 1.09 秒，比 OpenAI 的 GPT-4o 模型更快，價格比 GPT-4o 低約 80%，是市場上具有極高性價比的 AI 語音模型之一。
多語言與風格支持：目前支持美國英語和英國英語的多種說話風格與口音，未來計劃擴展對更多語言和口音的支持。

Nova Sonic的技術原理

高精度語音識別：Nova Sonic 采用 HiFi 語音識別技術，能夠在嘈雜環境或用戶發音不清晰的情況下，準確理解用戶的意圖。在多語言 LibriSpeech 基準測試中，Nova Sonic 在英語、法語、意大利語、德語和西班牙語上的平均單詞錯誤率（WER）僅為 4.2%，遠超其他競爭產品。
雙向流式 API：通過亞馬遜的 Bedrock 開發者平臺提供服務，Nova Sonic 采用創新的雙向流式 API 接口，實現音頻輸入與輸出的實時雙向流式傳輸，確保對話的流暢性。