標(biāo)簽:語(yǔ)音識(shí)別
Parakeet TDT 0.6B
Parakeet TDT 0.6B 是英偉達(dá)推出的開源自動(dòng)語(yǔ)音識(shí)別(ASR)模型。采用FastConformer編碼器和TDT解碼器架構(gòu),通過預(yù)測(cè)文本標(biāo)記及其持續(xù)時(shí)間加速推理,減少計(jì)算...
Gemini 2.5 Pro (I/O 版)
Gemini 2.5 Pro (I/O 版) 是 Google 推出的 Gemini 2.5 Pro 升級(jí)版多模態(tài)AI模型,具體版本號(hào)為 Gemini 2.5 Pro Preview 05-06。模型在編程能力上取得重大突破...
Aero-1-Audio
Aero-1-Audio 是 LMMs-Lab 開發(fā)的輕量級(jí)音頻模型,基于 Qwen-2.5-1.5B 構(gòu)建,僅包含 1.5 億參數(shù)。專為長(zhǎng)音頻處理設(shè)計(jì),能支持長(zhǎng)達(dá) 15 分鐘的連續(xù)音頻輸入,無(wú)...
Spring.new
Spring.new 是基于人工智能的低代碼/無(wú)代碼構(gòu)建平臺(tái),幫助用戶快速構(gòu)建和部署定制化的商業(yè)應(yīng)用程序。通過自然語(yǔ)言輸入,用戶可以將想法轉(zhuǎn)化為實(shí)際應(yīng)用,無(wú)需...