標簽:語音識別

Qwen2-Audio

Qwen2-Audio是阿里通義千問團隊最新推出的開源AI語音模型,支持直接語音輸入和多語言文本輸出。具備語音聊天、音頻分析功能,支持超過8種語言。Qwen2-Audio在...
閱讀原文

醒藍AI

醒藍AI是一款AI照片生成工具,支持一鍵生成AI形象照,用戶能夠輕松制作工作形象照、寫真照、證件照和AI換臉照片。醒藍AI還提供API接口和定制化解決方案,滿足...
閱讀原文

有道小P

有道小P是網易有道推出的AI全科學習助手,專為K12階段的學生設計。有道小P搭載了有道子曰教育大模型,能覆蓋全學段和全學科的答疑需求,提供個性化的學習輔導...
閱讀原文

Mo卡片

Mo卡片是一站式AI知識庫卡片式學習工具。Mo卡片以卡片形式提供1500+張專業AI知識卡片,涵蓋理論、實操、特別篇等主題。用戶通過圖文、動畫、視頻、語音等互動...
閱讀原文

微博嘴替

微博嘴替是一個微博賬戶AI趣味分析應用,專為微博用戶設計。微博嘴替通過分析用戶的微博資料和內容,生成犀利、幽默風趣和個性化的吐槽。
閱讀原文

Subtitle Edit

Subtitle Edit是一款免費開源的多功能字幕編輯器,支持超過300種字幕格式,包括SRT、MicroDVD和Sub Station Alpha等。具備字幕同步、創建、翻譯、音頻波形可...
閱讀原文

HumanVid

HumanVid是香港中文大學和上海人工智能實驗室共同推出的高質量數據集,專為人類圖像動畫訓練設計。結合了現實世界視頻和合成數據,通過精心設計的規則篩選高...
閱讀原文

Seed-ASR

Seed-ASR是字節跳動開發的一款基于大型語言模型(LLM)的語音識別(ASR)模型。在超過2000萬小時的語音數據和近90萬小時的配對ASR數據上訓練,支持普通話和13...
閱讀原文

MUMU

MUMU是一種多模態圖像生成模型,通過結合文本提示和參考圖像來生成目標圖像,從而提高生成的準確率和質量。MUMU模型的架構基于SDXL的預訓練卷積UNet,采用了...
閱讀原文

LeRobot

LeRobot是由HuggingFace推出的開源AI聊天機器人項目,由前特斯拉研究員Remi Cadene領導開發。LeRobot致力于降低機器人技術的入門門檻,提供預訓練模型、數據...
閱讀原文

STranslate

STranslate是專為Windows用戶設計的多功能翻譯和OCR工具。支持多種語言翻譯,具備劃詞、截圖、監聽剪貼板等多種翻譯方式,并提供多家翻譯服務接口。還擁有基...
閱讀原文

Dola

Dola是一款人工智能日歷助理,通過自然語言處理技術,使用戶能通過文本、語音或圖片等多種方式與主流即時通訊軟件(如Apple Messages、Telegram、LINE、Whats...
閱讀原文

Mini-Omni

Mini-Omni 是一個開源的端到端語音對話模型,具備實時語音輸入和輸出的能力,能在對話中實現“邊思考邊說話”的功能。模型的設計支持在不需要額外的自動語音識...
閱讀原文

Slax Note

SlaxNote 是一款基于語音識別技術的 AI 語音筆記應用,可以實時將語音轉換為文本,并自動潤色這些文本,使表達更加流暢和專業。特別適合戶外靈感捕捉、想法組...
閱讀原文

VoxInstruct

VoxInstruct 是由清華大學開源的語音合成技術,能根據人類語言指令生成高度符合用戶需求的語音。系統采用統一的多語言編解碼器語言建模框架,將傳統的文本到...
閱讀原文
191011121315