標簽:語音識別

Kuakua

Kuakua 是結(jié)合積極心理學和AI技術的平臺,提升用戶的幸福感和心理健康。通過提供多語言支持、心理學資源、AI輔助工具、正念練習和生活方式建議,幫助用戶在日...
閱讀原文

Readtheirlips

Readtheirlips 是由 Symphonic Labs 推出的一款AI軟件,用于通過分析視頻中人物的嘴唇運動來識別和轉(zhuǎn)錄口語內(nèi)容。軟件能解讀在沒有聲音的情況下,或者在聲音...
閱讀原文

TikTok Voice

TikTok Voice 是基于AI技術的文字轉(zhuǎn)語音(TTS)在線工具,將文本轉(zhuǎn)換成各種流行于TikTok平臺的聲音效果。工具為用戶提供多種語音選項,如女士聲音、Siri聲音...
閱讀原文

Sunoify

Sunoify是AI驅(qū)動的音樂創(chuàng)作平臺,使用先進的人工智能技術將文字、表情符號、圖片或產(chǎn)品網(wǎng)址轉(zhuǎn)化為個性化的音樂作品。用戶可以通過簡單的界面選擇創(chuàng)作模式,輸...
閱讀原文

PoseTalk

PoseTalk 是基于文本和音頻的姿勢控制和運動細化方法的開源項目,用于一次性生成會說話的頭部視頻。從圖像、驅(qū)動音頻和驅(qū)動姿勢合成說話人臉視頻,為用戶提供...
閱讀原文

AI小聚

AI小聚是由聚名科技推出的一款多功能AI助手,通過智能對話和創(chuàng)作功能,為用戶提供便捷服務。用戶通過文字或語音與AI小聚互動,獲取個性化的文案創(chuàng)作、生活建...
閱讀原文

Faster Whisper

Faster Whisper 是一個基于OpenAI Whisper模型的高效語音識別工具,運用CTranslate2引擎實現(xiàn)快速推理。在保持高準確度的同時,提升語音轉(zhuǎn)寫速度,降低內(nèi)存使...
閱讀原文

Draw an Audio

Draw an Audio 是中國科學院自動化研究所和美團點評的研究人員推出的視頻生成音頻系統(tǒng)。根據(jù)視頻內(nèi)容自動生成匹配的聲音效果,類似于電影制作中的 Foley 藝術...
閱讀原文

Gummy

Gummy是通義實驗室在2024年云棲大會上推出的端到端語音翻譯大模型。模型能實時流式生成語音識別與翻譯結(jié)果,支持包括中文、英語、粵語、日語、韓語、法語、德...
閱讀原文

AiNiee

AiNiee 是一款AI翻譯工具,能一鍵自動翻譯RPG、SLG游戲、Epub、TXT格式的小說、Srt、Lrc字幕文件等。工具支持多格式文件,接入多個主流AI接口平臺,如OpenAI...
閱讀原文

Rope

Rope是一款開源的AI換臉工具,基于insightface的inswapper_128模型構(gòu)建,提供一個用戶友好的圖形界面。用戶通過上傳圖片或視頻,在幾秒鐘內(nèi)完成換臉操作,效...
閱讀原文

AEE

AEE(Auto Excel Editor)是一款在線AI Excel編輯器,基于AI技術自動化Excel表格的編輯和管理任務。用戶只需輸入簡單的提示語,AEE自動執(zhí)行數(shù)據(jù)的增刪改查等...
閱讀原文

NeMo

NeMo 是由 NVIDIA 提供的端到端云原生框架,用于構(gòu)建、定制和部署生成式 AI 模型。支持大型語言模型(LLMs)、多模態(tài)模型、語音識別和文本轉(zhuǎn)語音(TTS)等應...
閱讀原文

Oryx

Oryx是由清華大學、騰訊和南洋理工大學聯(lián)合推出的多模態(tài)大型語言模型(MLLM),基于兩項核心創(chuàng)新來處理視覺數(shù)據(jù),預訓練的OryxViT模型和動態(tài)壓縮模塊。OryxVi...
閱讀原文

AMD-135M

AMD-135M是AMD推出的首款小型語言模型(SLM),為特定用例提供性能與資源消耗之間的平衡。基于LLaMA2模型架構(gòu),在AMD Instinct MI250加速器上訓練,基于670億...
閱讀原文