標簽:智能語音識別

Dolphin

Dolphin是清華大學電子工程系語音與音頻技術實驗室聯合海天瑞聲共同推出的面向東方語言的語音大模型。支持40個東方語種的語音識別,中文語種涵蓋22種方言(含...
閱讀原文

AI速搭

AI速搭是百度智能云推出的低代碼開發平臺,幫助企業快速搭建和部署智能應用。基于AI技術的能力,用戶可以通過可視化界面進行操作,無需編寫大量代碼,可快速...
閱讀原文

OLMo 2 32B

OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新開源語言模型,是 OLMo 2 系列的重要成果。擁有 320 億參數,是首個在多技能學術基準測試中超越 GPT-...
閱讀原文

Chirp 3

Chirp 3 是谷歌云推出的高清語音合成模型,專為生成自然、生動的語音而設計。支持 248 種聲音和 31 種語言,能捕捉人類語調的細微差別,語音輸出更加貼近真實...
閱讀原文

PySpur

PySpur 是開源的輕量級可視化 AI 智能體工作流構建器,簡化 AI 系統的開發流程。基于拖拽式界面讓用戶能快速構建、測試和迭代 AI 工作流,無需編寫復雜代碼。...
閱讀原文

X-R1

X-R1是基于強化學習的低成本訓練框架,能加速大規模語言模型的后訓練(Scaling Post-Training)開發。X-R1用極低的成本訓練0.5B(5億參數)規模的R1-Zero模型...
閱讀原文

ACE++

ACE++是阿里巴巴通義實驗室推出的先進的圖像生成與編輯工具,通過指令化和上下文感知的內容填充技術,實現了高質量的圖像創作和編輯功能。
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學語言技術實驗室、中國科學院自動化研究所推出的新型多模態推理范式,基于生成圖像可視化...
閱讀原文

播記

播記是專為播客創作者設計的智能節目筆記(Shownotes)生成工具。通過AI技術,能快速提取播客音頻中的關鍵信息,自動生成包含節目主題、嘉賓介紹、重要觀點、...
閱讀原文

SynCD

SynCD(Synthetic Customization Dataset)是卡內基梅隆大學和Meta推出的高質量合成訓練數據集,用在提升文本到圖像模型的定制化能力。SynCD包含多個相同對象...
閱讀原文

Sky-T1

Sky-T1是加州大學伯克利分校Sky Computing實驗室的研究團隊NovaSky發布的開源推理AI模型,名為Sky-T1-32B-Preview。是首個開源推理模型,訓練數據集和代碼均...
閱讀原文

豆包向量化API

豆包向量化API是由字節跳動研發的語義向量化模型,名為Doubao-embedding,主要面向向量檢索的使用場景,支持中、英雙語,能處理最長4K的上下文長度。
閱讀原文

Hi.AI

Hi.AI 是 AI 聊天應用,用戶能創建具有獨特個性的數字朋友,與各種 AI 角色進行沉浸式聊天。用戶可以與名人、虛構人物或歷史人物的 AI 版本就任何話題展開對...
閱讀原文

Ingredients

Ingredients是強大的框架,基于將多個特定身份(ID)照片與視頻擴散Transformer相結合,用在定制視頻創作。Ingredients基于三個核心模塊實現高度定制化的視頻...
閱讀原文

Fineshare VoiceTrans

Fineshare VoiceTrans 是實時 AI 變聲器,能輕松改變自己的聲音,適應不同的場景和需求。Fineshare VoiceTrans 提供多種功能,包括真實的 AI 變聲、零延遲的...
閱讀原文