標簽:語音識別

什么是NLP自然語言處理?定義、重要性、發展和應用

NLP(Natural Language Processing),即自然語言處理,是計算機科學的一個領域,重點是創建能夠理解人類語音和語言的計算機和軟件。NLP使用人工智能和機器學...
閱讀原文

OpenVoice

OpenVoice是由MyShell推出的一個免費開源的AI即時語音克隆項目,相較于其他的語音克隆技術,OpenVoice的優勢在于僅需一段簡短的音頻,便能以驚人的準確度復刻...
閱讀原文

VoiceCraft

VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經編解碼器語言模型,專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構...
閱讀原文

Gauth APP

Gauth APP是由字節跳動的海外子公司開發的一款智能學習輔助應用,專注于幫助學生高效解決數學、化學、物理等科目的復雜問題。
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

騰訊元器

騰訊元器是騰訊公司在騰訊云生成式AI產業應用峰會上推出的一款基于其騰訊混元大模型的AI智能體創作與分發平臺,可幫助用戶輕松創建和部署智能體,無需編寫代...
閱讀原文

騰訊元寶APP

騰訊元寶APP是騰訊于5月30日最新推出的一款基于騰訊混元大模型的AI助手應用,旨在通過先進的人工智能技術,為用戶提供辦公、學習、創作和生活等方面的輔助。
閱讀原文

Fish Speech

Fish Speech是一款由Fish Audio開發的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數據訓練,實現了接近人類水平的語音合成...
閱讀原文

Moshi

Moshi是由法國的的人工智能研究實驗室Kyutai推出的一款端到端實時音頻多模態AI模型,擁有聽、說、看的能力,并能模擬70種不同的情緒和風格進行交流。作為對標...
閱讀原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創新,Whisper-Medusa引入了多頭注意力機制,實現了并行處理,顯著提升...
閱讀原文

Amuse AI

Amuse 2.0是AMD最新推出的AI圖像生成工具,專為AMD硬件優化,支持在PC上生成高質量圖像。Amuse 2.0具備設計模式,能夠將用戶草圖和文本提示轉化為圖像,同時...
閱讀原文

墨問便簽

墨問便簽是專為創作者設計的AI便簽工具,支持AI語音轉錄功能,用戶可以錄制長達10分鐘的語音,實時看到轉錄文字,便于即時修正。AI還能自動潤色,如分段和修...
閱讀原文

Aide

Aide 是免費開源的AI 編程插件,具備代碼注釋、語言轉換、智能粘貼、批量處理、變量命名和自定義命令等功能,幫助開發者快速理解、編寫和重構代碼。Aide 支持...
閱讀原文

智譜AI開放平臺

智譜AI開放平臺 是一個面向開發者的大模型開發平臺。整合了先進的模型能力、豐富的開發資源、自定義知識庫及應用體驗中心,助力開發者利用GLM大模型的技術潛...

漢王語音王

漢王語音王是漢王科技推出的智能語音APP,集成了AI語音記錄、翻譯與同聲傳譯功能。基于自研的多模態大模型,支持高準確率轉寫、拍錄同步、智能總結和實時翻譯...
閱讀原文
18910111215