標(biāo)簽:語音識別

Qwen2-Audio

Qwen2-Audio是阿里通義千問團(tuán)隊最新推出的開源AI語音模型,支持直接語音輸入和多語言文本輸出。具備語音聊天、音頻分析功能,支持超過8種語言。Qwen2-Audio在...
閱讀原文

醒藍(lán)AI

醒藍(lán)AI是一款A(yù)I照片生成工具,支持一鍵生成AI形象照,用戶能夠輕松制作工作形象照、寫真照、證件照和AI換臉照片。醒藍(lán)AI還提供API接口和定制化解決方案,滿足...
閱讀原文

有道小P

有道小P是網(wǎng)易有道推出的AI全科學(xué)習(xí)助手,專為K12階段的學(xué)生設(shè)計。有道小P搭載了有道子曰教育大模型,能覆蓋全學(xué)段和全學(xué)科的答疑需求,提供個性化的學(xué)習(xí)輔導(dǎo)...
閱讀原文

Mo卡片

Mo卡片是一站式AI知識庫卡片式學(xué)習(xí)工具。Mo卡片以卡片形式提供1500+張專業(yè)AI知識卡片,涵蓋理論、實操、特別篇等主題。用戶通過圖文、動畫、視頻、語音等互動...
閱讀原文

微博嘴替

微博嘴替是一個微博賬戶AI趣味分析應(yīng)用,專為微博用戶設(shè)計。微博嘴替通過分析用戶的微博資料和內(nèi)容,生成犀利、幽默風(fēng)趣和個性化的吐槽。
閱讀原文

Subtitle Edit

Subtitle Edit是一款免費開源的多功能字幕編輯器,支持超過300種字幕格式,包括SRT、MicroDVD和Sub Station Alpha等。具備字幕同步、創(chuàng)建、翻譯、音頻波形可...
閱讀原文

HumanVid

HumanVid是香港中文大學(xué)和上海人工智能實驗室共同推出的高質(zhì)量數(shù)據(jù)集,專為人類圖像動畫訓(xùn)練設(shè)計。結(jié)合了現(xiàn)實世界視頻和合成數(shù)據(jù),通過精心設(shè)計的規(guī)則篩選高...
閱讀原文

Seed-ASR

Seed-ASR是字節(jié)跳動開發(fā)的一款基于大型語言模型(LLM)的語音識別(ASR)模型。在超過2000萬小時的語音數(shù)據(jù)和近90萬小時的配對ASR數(shù)據(jù)上訓(xùn)練,支持普通話和13...
閱讀原文

MUMU

MUMU是一種多模態(tài)圖像生成模型,通過結(jié)合文本提示和參考圖像來生成目標(biāo)圖像,從而提高生成的準(zhǔn)確率和質(zhì)量。MUMU模型的架構(gòu)基于SDXL的預(yù)訓(xùn)練卷積UNet,采用了...
閱讀原文

LeRobot

LeRobot是由HuggingFace推出的開源AI聊天機器人項目,由前特斯拉研究員Remi Cadene領(lǐng)導(dǎo)開發(fā)。LeRobot致力于降低機器人技術(shù)的入門門檻,提供預(yù)訓(xùn)練模型、數(shù)據(jù)...
閱讀原文

STranslate

STranslate是專為Windows用戶設(shè)計的多功能翻譯和OCR工具。支持多種語言翻譯,具備劃詞、截圖、監(jiān)聽剪貼板等多種翻譯方式,并提供多家翻譯服務(wù)接口。還擁有基...
閱讀原文

Dola

Dola是一款人工智能日歷助理,通過自然語言處理技術(shù),使用戶能通過文本、語音或圖片等多種方式與主流即時通訊軟件(如Apple Messages、Telegram、LINE、Whats...
閱讀原文

Mini-Omni

Mini-Omni 是一個開源的端到端語音對話模型,具備實時語音輸入和輸出的能力,能在對話中實現(xiàn)“邊思考邊說話”的功能。模型的設(shè)計支持在不需要額外的自動語音識...
閱讀原文

Slax Note

SlaxNote 是一款基于語音識別技術(shù)的 AI 語音筆記應(yīng)用,可以實時將語音轉(zhuǎn)換為文本,并自動潤色這些文本,使表達(dá)更加流暢和專業(yè)。特別適合戶外靈感捕捉、想法組...
閱讀原文

VoxInstruct

VoxInstruct 是由清華大學(xué)開源的語音合成技術(shù),能根據(jù)人類語言指令生成高度符合用戶需求的語音。系統(tǒng)采用統(tǒng)一的多語言編解碼器語言建模框架,將傳統(tǒng)的文本到...
閱讀原文
191011121315