一款高質(zhì)量的英語自動語音識別模型,支持標點符號和時間戳預測。
精確到詞級的自動語音識別模型
統(tǒng)一的開放命名實體和語音識別模型
聯(lián)合語音轉(zhuǎn)錄和實體識別的先進模型
實時瀏覽器端語音識別應(yīng)用
自動語音識別工具,提供詞級時間戳和說話人識別
高效自動語音識別模型
NeMo是一款由NVIDIA開發(fā)的生成式人工智能框架,可用于構(gòu)建大型語言模型、多模態(tài)模型、自動語音識別和文本到語音合成等應(yīng)用。NeMo框架具有高效性、靈活性和易用性,可滿足研究人員和開發(fā)者的需求。,NeMo官網(wǎng)入口網(wǎng)址
Voci是一款高效、準確的自動語音識別產(chǎn)品,可以將聯(lián)系中心呼叫轉(zhuǎn)錄為文字,幫助企業(yè)提升客戶體驗和獲取有價值的數(shù)據(jù)。,Voci Technologies官網(wǎng)入口網(wǎng)址
Whisper是一個接近人類級別準確性的自動語音識別系統(tǒng),具有魯棒性和多語言轉(zhuǎn)錄翻譯功能。,Whisper by OpenAI官網(wǎng)入口網(wǎng)址
Vivoka提供一種全方位解決方案,使任何公司能夠在最短時間內(nèi)創(chuàng)建自己的高性能、安全的離線語音AI助手。該解決方案包括喚醒詞、自動語音識別、自然語言理解、語音生物識別、語音合成和音頻增強等功能。它適用于智能眼鏡、供應(yīng)鏈、維護報告、虛擬現(xiàn)實、嵌入式系統(tǒng)和智能建筑等多個應(yīng)用場景。,Vivoka官網(wǎng)入口網(wǎng)址
zeroscope_v2_XL官網(wǎng)入口網(wǎng)址,管道標簽不在官方列表中
SpeechFlow官網(wǎng)入口網(wǎng)址,SpeechFlow Speech Recognition API 是一款功能強大的工具,可將聲音轉(zhuǎn)換為文本、語音轉(zhuǎn)換為文本和音頻轉(zhuǎn)換為文本,準確率高達 14 種語言。
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙