標簽：實時音頻處理

WPS接入DeepSeek，秒變辦公神器！

WPS 大家經常用來日常寫作，雖然本身提供了AI功能，但可惜需要會員，本文教你三分鐘接入最火的DeepSeek，讓WPS秒變辦公神器。 DeepSeek API申請地址：http:/...

閱讀原文

AI教程

10個月前

AI賺錢副業~AI生成影視解說，半個月漲粉變現3.5W+！

這兩年大家都在感嘆生活不易，然而我想說的是，機會還是有的，但問題不在于有沒有，而在于你是否能夠認準機會，然后抓住它。接觸過很多咨詢項目的人，發現...

使用教程

1年前 (2024)

LongCat-Audio-Codec

LongCat-Audio-Codec 是美團 LongCat 團隊開源的語音編解碼方案，專為語音大語言模型（Speech LLM）設計。通過語義和聲學雙 Token 并行提取機制，兼顧語音的...

閱讀原文

AI工具

2個月前

Bebop

Bebop 是AI銷售工具，專為中小企業設計，幫助用戶快速找到潛在客戶并提升銷售效率。用戶只需輸入公司網站地址，Bebop 能在短時間內掃描市場，生成潛在客戶名...

閱讀原文

AI工具

7個月前

Maestro

Maestro是用在移動和Web應用的端到端自動化測試框架。基于內置的容錯能力和延遲容忍機制，解決傳統測試中常見的不穩定性和等待問題。Maestro基于聲明式語法，...

閱讀原文

AI工具

9個月前

SeedFoley

SeedFoley 是字節跳動豆包大模型語音團隊開發的端到端視頻音效生成模型，為視頻創作提供智能音效生成服務。通過融合時空視頻特征與擴散生成模型，實現音效與...

閱讀原文

AI工具

9個月前

MakeBestMusic

MakeBestMusic 是基于AI技術的音樂創作平臺，基于簡單易用的工具幫助用戶快速生成高質量的個性化音樂。用戶用文本描述生成器樂或人聲音樂，基于上傳音頻進行...

閱讀原文

AI工具

10個月前

Jammable

Jammable是AI音樂翻唱平臺。用戶選擇喜歡的歌手聲音或風格，讓AI模仿創作出個性化的音樂作品。平臺提供熱門聲音、音樂合集和合作作品展示，方便用戶了解流行...

閱讀原文

AI工具

10個月前

3D-Speaker：多模態說話人識別技術的創新突破與應用潛力

3D-Speaker是阿里巴巴通義實驗室語音團隊推出的多模態開源項目，基于結合聲學、語義、視覺信息，實現高精度的說話人識別和語種識別。3D-Speaker提供工業級模...

閱讀原文

AI工具

12個月前

Ultravox：智能多模態助手實現文本與語音的無縫理解

Ultravox是新型的多模態大型語言模型（LLM），能直接理解文本和人類語音，無需依賴單獨的自動語音識別（ASR）階段。基于多模態投影器技術將音頻數據轉換為高...

閱讀原文

AI工具

1年前 (2024)

MultiFoley：創新音效生成系統助力創作者實現無限靈感

MultiFoley是Adobe Research和密歇根大學共同推出的音效生成系統，能基于文本、音頻和視頻的多模態控制生成Foley聲音效果。系統支持用戶根據文本提示、參考音...

閱讀原文

AI工具

1年前 (2024)

EzAudio

EzAudio是由約翰霍普金斯大學和騰訊AI實驗室共同推出的一款文本到音頻（Text-to-Audio, T2A）生成模型。基于一種高效的擴散變換器技術，用在從文本提示生成高...

閱讀原文

AI工具

1年前 (2024)