標簽:多語言支持

Actor Mode

Actor Mode 是 ElevenLabs 推出的AI語音生成工具,支持用戶通過自己的聲音指導 AI 生成語音內容。用戶只需錄制一段音頻或上傳已有音頻文件,AI 能分析其語調...
閱讀原文

Neo-1

Neo-1 是 VantAI 推出的全球首個將從頭分子生成與原子級結構預測統一的AI模型。能預測生物分子結構,生成全新的分子,在設計分子膠等新型治療藥物方面表現出...
閱讀原文

OpenDeepSearch

OpenDeepSearch 是開源的深度搜索工具,基于開源推理模型和推理代理提升搜索性能,專為? Hugging Face 的 SmolAgents 無縫集成進行優化,支持深度網絡搜索和...
閱讀原文

Elmo Chat

Elmo Chat 是 Lepton AI 推出的 Chrome 擴展工具,基于AI技術簡化用戶對各類內容的理解和處理。Elmo Chat能快速總結網頁、YouTube 視頻、Google 文檔和 PDF ...
閱讀原文

MegaTTS 3

MegaTTS 3是字節跳動與浙江大學合作推出的零樣本文本到語音合成系統,采用輕量級擴散模型,參數量僅0.45B,能高效生成高質量語音。系統將語音分解為內容、音...
閱讀原文

PaddleSpeech

PaddleSpeech 是百度飛槳團隊開源的語音處理工具,提供全面的語音處理功能,包括語音識別、語音合成、聲紋識別、語音翻譯等。PaddleSpeech提供命令行界面、服...
閱讀原文

TripoSG

TripoSG 是 VAST-AI-Research 團隊推出的基于大規模修正流(Rectified Flow, RF)模型的高保真 3D 形狀合成技術, 通過大規模修正流變換器架構、混合監督訓練...
閱讀原文

TripoSF

TripoSF是VAST推出的新一代3D基礎模型,突破傳統3D建模在細節、復雜結構和擴展性上的瓶頸。采用SparseFlex表示方法,結合稀疏體素結構,僅在物體表面附近的區...
閱讀原文

MeshifAI

MeshifAI 是AI文本轉 3D 模型生成平臺,能根據用戶輸入的文本提示快速生成 3D 模型,支持生成簡單模型和紋理模型(PBR)兩種類型,生成的模型為 .glb 格式,...
閱讀原文

ModelEngine

ModelEngine 是華為開源的全流程 AI 開發工具鏈,圍繞數據使能、模型使能和應用使能三大核心功能展開,解決 AI 行業化落地過程中數據工程耗時長、模型訓練和...
閱讀原文

Ideogram 3.0

Ideogram 3.0 是Ideogram推出的 AI 圖像生成模型。Ideogram 3.0在圖像生成質量上實現飛躍,具備高度的真實感、出色的文本渲染和強大的語言理解能力,支持生成...
閱讀原文

Qwen2.5-Omni

Qwen2.5-Omni 是阿里開源的 Qwen 系列旗艦級多模態模型,擁有7B參數,Qwen2.5-Omni具備強大的多模態感知能力,能處理文本、圖像、音頻和視頻輸入,支持流式文...
閱讀原文

Cosmos-Reason1

Cosmos-Reason1 是 NVIDIA 推出的一系列多模態大型語言模型,基于物理常識和具身推理理解物理世界。Cosmos-Reason1包括兩個模型:Cosmos-Reason1-8B 和 Cosmo...
閱讀原文

Mureka O1

Mureka O1是昆侖萬維發布的全球首款音樂推理大模型,全球首個引入“思維鏈”(Chain of Thought,CoT)技術的音樂模型,Mureka O1在推理過程中加入思考與自我批...
閱讀原文

Browseragent

Browseragent是基于瀏覽器的AI自動化工具,直接在瀏覽器中創建和運行AI工作流,無需API調用費用,實現零成本的無限次執行。Browseragent基于無代碼可視化編輯...
閱讀原文
191011121361