免費(fèi)的 AI 視頻字幕生成工具。使用先進(jìn)的 AI 技術(shù)自動生成、編輯和導(dǎo)出視頻字幕。
Google Cloud生成式AI提示庫是Google官方提供的AI提示詞資源庫,能幫助用戶更好地利用生成式AI模型完成各種任務(wù)。
LongCat開放平臺是美團(tuán)LongCat團(tuán)隊推出的大模型API服務(wù)平臺,基于全自研 MoE 架構(gòu)(Zero-Computation Experts + Shortcut-connected MoE),為用戶提供高效、穩(wěn)定且安全的AI服務(wù)。
開源免費(fèi)的 Wispr Flow 替代方案,為中文用戶打造的桌面端語音輸入與文本處理工具。
讓Mumble Note將您的會議、任務(wù)、想法和快速筆記立即轉(zhuǎn)換為筆記、待辦事項和輸出。
愛解析是一款音視頻轉(zhuǎn)圖文神器,支持音視頻內(nèi)容快速轉(zhuǎn)換為結(jié)構(gòu)化文本,并提供智能分析和多語言翻譯功能,幫助用戶快速獲取和理解音視頻中的關(guān)鍵信息。
亞馬遜全新基礎(chǔ)模型理解語氣、語調(diào)與節(jié)奏,提升人機(jī)對話自然度。
靈云開放平臺免費(fèi)提供全面的智能人機(jī)交互技術(shù),包括語音合成、識別,手寫識別,光學(xué)字符識別,語義理解,機(jī)器翻譯等,助力移動應(yīng)用、智能硬件實現(xiàn)自然、智能的交互。
一站式虛擬主播視頻生產(chǎn)和編輯平臺
靈云AI開放平臺
科大訊飛推出的移動互聯(lián)網(wǎng)智能交互平臺,為開發(fā)者免費(fèi)提供:涵蓋語音能力增強(qiáng)型SDK,一站式人機(jī)智能語音交互解決方案,專業(yè)全面的移動應(yīng)用分析;
Whisper Turbo 是一款免費(fèi)在線快速準(zhǔn)確的語音識別工具。
開源工業(yè)級自動語音識別模型,支持普通話、方言和英語,性能卓越。
Scribe 是全球最準(zhǔn)確的語音轉(zhuǎn)文字模型,支持99種語言。
音刻轉(zhuǎn)錄是一款快速、精準(zhǔn)、絲滑的音視頻轉(zhuǎn)錄工具。
DuRT 是一款 macOS 上的實時語音識別和翻譯軟件,致力于提供高效、準(zhǔn)確的語音處理服務(wù)。
Phi-4-multimodal-instruct 是微軟開發(fā)的輕量級多模態(tài)基礎(chǔ)模型,支持文本、圖像和音頻輸入。
將口語轉(zhuǎn)化為優(yōu)雅文字的AI寫作工具,讓寫作變得輕松自然。
思必馳DFM-2大模型賦能多模態(tài)交互和行業(yè)應(yīng)用,提供更智能、個性化的對話體驗。
強(qiáng)大的AI同聲傳譯工具,實時精準(zhǔn)翻譯多種語言,高效促進(jìn)跨語言溝通。
AI輔助病歷生成系統(tǒng),提升效率、保障質(zhì)量、保護(hù)隱私。
鵬城實驗室開源的一款多語言語音識別系統(tǒng)開發(fā)工具包,PengChengStarling可以在統(tǒng)一的框架內(nèi)處理多種語言語音輸入,支持實時語音識別,邊說邊識別。PengChengStarling官網(wǎng)入口網(wǎng)址
集圖片翻譯、視頻翻譯、智能摳圖、去除圖片文字和視頻字幕等功能于一體的在線翻譯工具風(fēng)車AI翻譯官網(wǎng)入口網(wǎng)址
WhisperKit是一個開源項目,旨在幫助開發(fā)者和企業(yè)在用戶設(shè)備上部署商業(yè)規(guī)模的推理工作負(fù)載
基于科大訊飛語音技術(shù),實現(xiàn)智能客服的多渠道解決方案。
構(gòu)建高級語音AI,由LLM提供支持,實現(xiàn)人類般的交互體驗。
讓應(yīng)用通過語音與文本的轉(zhuǎn)換實現(xiàn)智能交互。
趣味語音互動,讓設(shè)備記住你的名字。
實時語音交互的人工智能對話系統(tǒng)。
300行代碼實現(xiàn)基于LLM的語音轉(zhuǎn)錄。
音頻指令演示,體驗智能交互。
基于OpenAI Whisper的自動語音識別與說話人分割
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙