標簽:語音識別

PaddleSpeech

PaddleSpeech 是百度飛槳團隊開源的語音處理工具,提供全面的語音處理功能,包括語音識別、語音合成、聲紋識別、語音翻譯等。PaddleSpeech提供命令行界面、服...
閱讀原文

Mureka V6

Mureka V6是昆侖萬維推出的AI音樂創作平臺的基座模型,支持純音樂生成以及10種語言的AI音樂創作。引入自研的ICL(in-context learning)技術,使聲場更加開闊...
閱讀原文

MCP.so

MCP.so 是MCP資源平臺,專注于收集和整理第三方 MCP(Model Context Protocol)服務器。MCP.so將資源分為三類,MCP Servers(目前有2995個)、MCP Clients,...
閱讀原文

AndroidGen

AndroidGen 是智譜技術團隊推出增強基于大語言模型(LLM)的 Agent 能力的框架,特別是在數據稀缺的情況下。框架通過收集人類任務軌跡基于這些軌跡訓練語言模...
閱讀原文

瀚海智語

瀚海智語(OceanDS)是國家海洋環境預報中心聯合海洋出版社和三六零數字安全科技共同推出的國內首個海洋垂直領域大語言模型,模型以360智腦13B和Deepseek-R1-...
閱讀原文

龍貓LongCat

LongCat(龍貓)是美團自主研發的生成式AI大模型,通過人工智能技術提升公司內部工作效率和創新能力。模型具備強大的多模態能力,能處理文本、圖像等多種數據...
閱讀原文

算了么

算了么是創新的算力共享平臺,讓用戶通過共享閑置的GPU資源來支持科學研究和推動科技進步,同時還能從中獲得收益。用戶加入后,平臺會自動利用電腦閑置算力進...
閱讀原文

Marker

Marker 是開源的高精度文檔轉換工具,專注于將 PDF、Word 等多種文檔格式快速、準確地轉換為 Markdown、JSON 和 HTML 格式。通過深度學習技術,自動去除頁眉...
閱讀原文

Open-Sora 2.0

Open-Sora 2.0 是潞晨科技推出的全新開源SOTA(State-of-the-Art)視頻生成模型。Open-Sora 2.0 用 20 萬美元(224 張 GPU)成功訓練出 11B 參數的商業級模型...
閱讀原文

月匣

月匣是百度推出的AI互動應用,主打情感陪伴和沉浸式劇本體驗。用戶選擇多種AI角色進行個性化對話,如溫柔好友、霸道總裁或二次元角色等,享受深度情感交流。...
閱讀原文

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是多模態對話練習工具,幫助用戶應對各種困難對話場景而設計。支持創建和分享多種對話場景,如面試、職場溝通、銷售談判等,提供智能對...
閱讀原文

Wan

Wan是阿里推出的AI創意平臺,平臺搭載Wan2.1模型生成能力,專注于AI繪畫和AI視頻創作。AI繪畫基于文字描述,快速生成具有藝術感的圖像。AI視頻支持將文本和圖...
閱讀原文

TicVoice 7.0

TicVoice 7.0 是出門問問推出的第七代高品質 TTS(語音合成)引擎,基于新一代語音生成模型 Spark-TTS 。TicVoice 7.0基于創新的 BiCodec 編碼方式,將語音分...
閱讀原文

GEN3C

GEN3C 是NVIDIA、多倫多大學和向量研究所推出的新型生成式視頻模型,基于精確的相機控制和時空一致性生成高質量的 3D 視頻內容。GEN3C構建基于點云的 3D 緩存...
閱讀原文

WhisperChain

WhisperChain 是開源的語音識別工具,基于語音輸入提升工作效率。WhisperChain用 Whisper.cpp 實現實時語音識別,將語音轉換為文本,基于 LangChain 對文本進...
閱讀原文
12345615