標簽:語音識別

什么是NLP自然語言處理?定義、重要性、發(fā)展和應用

NLP(Natural Language Processing),即自然語言處理,是計算機科學的一個領域,重點是創(chuàng)建能夠理解人類語音和語言的計算機和軟件。NLP使用人工智能和機器學...
閱讀原文

OpenVoice

OpenVoice是由MyShell推出的一個免費開源的AI即時語音克隆項目,相較于其他的語音克隆技術,OpenVoice的優(yōu)勢在于僅需一段簡短的音頻,便能以驚人的準確度復刻...
閱讀原文

VoiceCraft

VoiceCraft是一個由德克薩斯大學奧斯汀分校研究團隊開源的神經(jīng)編解碼器語言模型,專注于零樣本語音編輯和文本到語音(TTS)任務。該模型采用Transformer架構...
閱讀原文

Gauth APP

Gauth APP是由字節(jié)跳動的海外子公司開發(fā)的一款智能學習輔助應用,專注于幫助學生高效解決數(shù)學、化學、物理等科目的復雜問題。
閱讀原文

Voice Engine

Voice Engine是OpenAI最新推出的一項AI語音合成和聲音克隆技術,能夠利用簡短的15秒音頻樣本和文本輸入,生成接近原聲的自然聽起來的語音。該項技術自2022年...
閱讀原文

騰訊元器

騰訊元器是騰訊公司在騰訊云生成式AI產(chǎn)業(yè)應用峰會上推出的一款基于其騰訊混元大模型的AI智能體創(chuàng)作與分發(fā)平臺,可幫助用戶輕松創(chuàng)建和部署智能體,無需編寫代...
閱讀原文

騰訊元寶APP

騰訊元寶APP是騰訊于5月30日最新推出的一款基于騰訊混元大模型的AI助手應用,旨在通過先進的人工智能技術,為用戶提供辦公、學習、創(chuàng)作和生活等方面的輔助。
閱讀原文

Fish Speech

Fish Speech是一款由Fish Audio開發(fā)的開源的文本到語音(TTS)工具,支持中文、英文和日文。通過約15萬小時的多語種數(shù)據(jù)訓練,實現(xiàn)了接近人類水平的語音合成...
閱讀原文

Moshi

Moshi是由法國的的人工智能研究實驗室Kyutai推出的一款端到端實時音頻多模態(tài)AI模型,擁有聽、說、看的能力,并能模擬70種不同的情緒和風格進行交流。作為對標...
閱讀原文

Whisper-Medusa

Whisper-Medusa是aiOla推出的開源AI語音識別模型,結合了OpenAI的Whisper技術與aiOla的創(chuàng)新,Whisper-Medusa引入了多頭注意力機制,實現(xiàn)了并行處理,顯著提升...
閱讀原文

Amuse AI

Amuse 2.0是AMD最新推出的AI圖像生成工具,專為AMD硬件優(yōu)化,支持在PC上生成高質(zhì)量圖像。Amuse 2.0具備設計模式,能夠?qū)⒂脩舨輬D和文本提示轉(zhuǎn)化為圖像,同時...
閱讀原文

墨問便簽

墨問便簽是專為創(chuàng)作者設計的AI便簽工具,支持AI語音轉(zhuǎn)錄功能,用戶可以錄制長達10分鐘的語音,實時看到轉(zhuǎn)錄文字,便于即時修正。AI還能自動潤色,如分段和修...
閱讀原文

Aide

Aide 是免費開源的AI 編程插件,具備代碼注釋、語言轉(zhuǎn)換、智能粘貼、批量處理、變量命名和自定義命令等功能,幫助開發(fā)者快速理解、編寫和重構代碼。Aide 支持...
閱讀原文

智譜AI開放平臺

智譜AI開放平臺 是一個面向開發(fā)者的大模型開發(fā)平臺。整合了先進的模型能力、豐富的開發(fā)資源、自定義知識庫及應用體驗中心,助力開發(fā)者利用GLM大模型的技術潛...

漢王語音王

漢王語音王是漢王科技推出的智能語音APP,集成了AI語音記錄、翻譯與同聲傳譯功能。基于自研的多模態(tài)大模型,支持高準確率轉(zhuǎn)寫、拍錄同步、智能總結和實時翻譯...
閱讀原文
18910111215