標(biāo)簽:智能語音識別

Dolphin

Dolphin是清華大學(xué)電子工程系語音與音頻技術(shù)實(shí)驗(yàn)室聯(lián)合海天瑞聲共同推出的面向東方語言的語音大模型。支持40個(gè)東方語種的語音識別,中文語種涵蓋22種方言(含...
閱讀原文

AI速搭

AI速搭是百度智能云推出的低代碼開發(fā)平臺,幫助企業(yè)快速搭建和部署智能應(yīng)用。基于AI技術(shù)的能力,用戶可以通過可視化界面進(jìn)行操作,無需編寫大量代碼,可快速...
閱讀原文

OLMo 2 32B

OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新開源語言模型,是 OLMo 2 系列的重要成果。擁有 320 億參數(shù),是首個(gè)在多技能學(xué)術(shù)基準(zhǔn)測試中超越 GPT-...
閱讀原文

Chirp 3

Chirp 3 是谷歌云推出的高清語音合成模型,專為生成自然、生動的語音而設(shè)計(jì)。支持 248 種聲音和 31 種語言,能捕捉人類語調(diào)的細(xì)微差別,語音輸出更加貼近真實(shí)...
閱讀原文

PySpur

PySpur 是開源的輕量級可視化 AI 智能體工作流構(gòu)建器,簡化 AI 系統(tǒng)的開發(fā)流程。基于拖拽式界面讓用戶能快速構(gòu)建、測試和迭代 AI 工作流,無需編寫復(fù)雜代碼。...
閱讀原文

X-R1

X-R1是基于強(qiáng)化學(xué)習(xí)的低成本訓(xùn)練框架,能加速大規(guī)模語言模型的后訓(xùn)練(Scaling Post-Training)開發(fā)。X-R1用極低的成本訓(xùn)練0.5B(5億參數(shù))規(guī)模的R1-Zero模型...
閱讀原文

ACE++

ACE++是阿里巴巴通義實(shí)驗(yàn)室推出的先進(jìn)的圖像生成與編輯工具,通過指令化和上下文感知的內(nèi)容填充技術(shù),實(shí)現(xiàn)了高質(zhì)量的圖像創(chuàng)作和編輯功能。
閱讀原文

MVoT

MVoT(Multimodal Visualization-of-Thought)是微軟研究院、劍橋大學(xué)語言技術(shù)實(shí)驗(yàn)室、中國科學(xué)院自動化研究所推出的新型多模態(tài)推理范式,基于生成圖像可視化...
閱讀原文

播記

播記是專為播客創(chuàng)作者設(shè)計(jì)的智能節(jié)目筆記(Shownotes)生成工具。通過AI技術(shù),能快速提取播客音頻中的關(guān)鍵信息,自動生成包含節(jié)目主題、嘉賓介紹、重要觀點(diǎn)、...
閱讀原文

SynCD

SynCD(Synthetic Customization Dataset)是卡內(nèi)基梅隆大學(xué)和Meta推出的高質(zhì)量合成訓(xùn)練數(shù)據(jù)集,用在提升文本到圖像模型的定制化能力。SynCD包含多個(gè)相同對象...
閱讀原文

Sky-T1

Sky-T1是加州大學(xué)伯克利分校Sky Computing實(shí)驗(yàn)室的研究團(tuán)隊(duì)NovaSky發(fā)布的開源推理AI模型,名為Sky-T1-32B-Preview。是首個(gè)開源推理模型,訓(xùn)練數(shù)據(jù)集和代碼均...
閱讀原文

豆包向量化API

豆包向量化API是由字節(jié)跳動研發(fā)的語義向量化模型,名為Doubao-embedding,主要面向向量檢索的使用場景,支持中、英雙語,能處理最長4K的上下文長度。
閱讀原文

Hi.AI

Hi.AI 是 AI 聊天應(yīng)用,用戶能創(chuàng)建具有獨(dú)特個(gè)性的數(shù)字朋友,與各種 AI 角色進(jìn)行沉浸式聊天。用戶可以與名人、虛構(gòu)人物或歷史人物的 AI 版本就任何話題展開對...
閱讀原文

Ingredients

Ingredients是強(qiáng)大的框架,基于將多個(gè)特定身份(ID)照片與視頻擴(kuò)散Transformer相結(jié)合,用在定制視頻創(chuàng)作。Ingredients基于三個(gè)核心模塊實(shí)現(xiàn)高度定制化的視頻...
閱讀原文

Fineshare VoiceTrans

Fineshare VoiceTrans 是實(shí)時(shí) AI 變聲器,能輕松改變自己的聲音,適應(yīng)不同的場景和需求。Fineshare VoiceTrans 提供多種功能,包括真實(shí)的 AI 變聲、零延遲的...
閱讀原文