標簽:語音識別

WPS接入DeepSeek,秒變辦公神器!

WPS 大家經常用來日常寫作,雖然本身提供了AI功能,但可惜需要會員,本文教你三分鐘接入最火的DeepSeek,讓WPS秒變辦公神器。 DeepSeek API申請地址:http:/...
閱讀原文

AI賺錢副業~AI生成影視解說,半個月漲粉變現3.5W+!

這兩年大家都在感嘆生活不易,然而我想說的是,機會還是有的,但問題不在于有沒有,而在于你是否能夠認準機會,然后抓住它。 接觸過很多咨詢項目的人,發現...

Mobvoi MCP Server

Mobvoi MCP Server 是出門問問推出的一站式集成各項 AI 能力的工具,Mobvoi MCP Server集成語音生成、聲音克隆、圖片驅動數字人、視頻配音等多項多模態 AI 能...
閱讀原文

Largo

Largo是基于AI技術加速影視內容開發的創新平臺。平臺分析海量影視數據(包括超過40萬部電影和電視劇、95萬名演員、5.9萬個劇本等),為影視制作提供數據驅動...
閱讀原文

CoGenAV

CoGenAV - 通義聯合深圳技術大學推出的多模態語音表征模型
閱讀原文

幻舟AI

幻舟AI是一站式AI短片創作平臺,支持批量生成廣告片、宣傳片、動畫片等。基于Midjourney、Runway等全球領先的AI模型,實現劇本創作、角色設計、分鏡生成及視...
閱讀原文

SOM AI

SOM AI 是 AI 輔助學術寫作工具,幫助學生輕松完成畢業論文(Skripsi)和學術研究。工具基于自然語言交互,提供研究主題頭腦風暴、段落釋義、簡化復雜內容等...
閱讀原文

Unmute

Unmute 是 Kyutai 推出的低延遲語音交互系統,專注于低延遲語音轉文字(Speech-to-Text)和文字轉語音(Text-to-Speech)。Unmute 基于先進的 AI 模型,為用...
閱讀原文

LLaDA-V

LLaDA-V是中國人民大學高瓴人工智能學院、螞蟻集團推出的多模態大語言模型(MLLM),基于純擴散模型架構,專注于視覺指令微調。模型在LLaDA的基礎上,引入視...
閱讀原文

Context7

Context7 是 Upstash 推出的AI工具,為大型語言模型(LLMs)和 AI 代碼編輯器提供最新、版本特定的文檔和代碼片段。通過解析文檔、豐富內容、向量化和重新排...
閱讀原文

豆包·語音播客模型

豆包·語音播客模型是字節跳動旗下火山引擎推出的語音播客模型。模型基于流式模型構建,可將文本秒級轉化為雙人對話式播客,具有低成本、高時效、強互動特點。...
閱讀原文

Notato

Notato 是AI筆記應用,專為高效學習和工作設計。能將音頻、視頻、文檔或網頁鏈接快速轉換為清晰的筆記、總結、閃卡和測驗,幫助用戶輕松整理和復習關鍵信息。
閱讀原文

DICE-Talk

DICE-Talk是復旦大學聯合騰訊優圖實驗室推出的新穎情感化動態肖像生成框架,支持生成具有生動情感表達且保持身份一致性的動態肖像視頻。DICE-Talk引入情感關...
閱讀原文

Speech-02

Speech-02 是 MiniMax 推出的新一代文本到語音(TTS)模型。模型基于回歸 Transformer 架構,實現零樣本語音克隆,僅需幾秒參考語音能生成高度相似的目標語音...
閱讀原文

AI智能體

AI工具集收錄了最新最全的AI智能體工具,包括通用型AI Agent、AI編程、AI設計、AI數據分析、AI智能體開發等。
閱讀原文

Zoe

Zoe是百型智能推出的國內首個外貿行業垂類Agent,AI外貿員。能根據企業設定的目標自動拆解工作流程,獨立完成外貿開發拓客的全鏈路操作,涵蓋市場分析、潛在...
閱讀原文

Chinese-LiPS

Chinese-LiPS 是智源研究院聯合南開大學共同打造的高質量中文多模態語音識別數據集,包含100小時的語音、視頻和手動轉錄文本,創新性地融合了唇讀視頻和演講...
閱讀原文
12315