標簽:多語言支持

Dolphin

Dolphin是清華大學(xué)電子工程系語音與音頻技術(shù)實驗室聯(lián)合海天瑞聲共同推出的面向東方語言的語音大模型。支持40個東方語種的語音識別,中文語種涵蓋22種方言(含...
閱讀原文

Translate Image

Translate Image 是免費的在線 AI 圖片翻譯工具,專為需要快速翻譯圖片中文字的用戶設(shè)計。支持多種圖片格式(如 JPG、PNG、JPEG 等),可處理產(chǎn)品圖片、電商...
閱讀原文

Actor Mode

Actor Mode 是 ElevenLabs 推出的AI語音生成工具,支持用戶通過自己的聲音指導(dǎo) AI 生成語音內(nèi)容。用戶只需錄制一段音頻或上傳已有音頻文件,AI 能分析其語調(diào)...
閱讀原文

Neo-1

Neo-1 是 VantAI 推出的全球首個將從頭分子生成與原子級結(jié)構(gòu)預(yù)測統(tǒng)一的AI模型。能預(yù)測生物分子結(jié)構(gòu),生成全新的分子,在設(shè)計分子膠等新型治療藥物方面表現(xiàn)出...
閱讀原文

OpenDeepSearch

OpenDeepSearch 是開源的深度搜索工具,基于開源推理模型和推理代理提升搜索性能,專為? Hugging Face 的 SmolAgents 無縫集成進行優(yōu)化,支持深度網(wǎng)絡(luò)搜索和...
閱讀原文

Elmo Chat

Elmo Chat 是 Lepton AI 推出的 Chrome 擴展工具,基于AI技術(shù)簡化用戶對各類內(nèi)容的理解和處理。Elmo Chat能快速總結(jié)網(wǎng)頁、YouTube 視頻、Google 文檔和 PDF ...
閱讀原文

MegaTTS 3

MegaTTS 3是字節(jié)跳動與浙江大學(xué)合作推出的零樣本文本到語音合成系統(tǒng),采用輕量級擴散模型,參數(shù)量僅0.45B,能高效生成高質(zhì)量語音。系統(tǒng)將語音分解為內(nèi)容、音...
閱讀原文

PaddleSpeech

PaddleSpeech 是百度飛槳團隊開源的語音處理工具,提供全面的語音處理功能,包括語音識別、語音合成、聲紋識別、語音翻譯等。PaddleSpeech提供命令行界面、服...
閱讀原文

TripoSG

TripoSG 是 VAST-AI-Research 團隊推出的基于大規(guī)模修正流(Rectified Flow, RF)模型的高保真 3D 形狀合成技術(shù), 通過大規(guī)模修正流變換器架構(gòu)、混合監(jiān)督訓(xùn)練...
閱讀原文

TripoSF

TripoSF是VAST推出的新一代3D基礎(chǔ)模型,突破傳統(tǒng)3D建模在細節(jié)、復(fù)雜結(jié)構(gòu)和擴展性上的瓶頸。采用SparseFlex表示方法,結(jié)合稀疏體素結(jié)構(gòu),僅在物體表面附近的區(qū)...
閱讀原文

MeshifAI

MeshifAI 是AI文本轉(zhuǎn) 3D 模型生成平臺,能根據(jù)用戶輸入的文本提示快速生成 3D 模型,支持生成簡單模型和紋理模型(PBR)兩種類型,生成的模型為 .glb 格式,...
閱讀原文

ModelEngine

ModelEngine 是華為開源的全流程 AI 開發(fā)工具鏈,圍繞數(shù)據(jù)使能、模型使能和應(yīng)用使能三大核心功能展開,解決 AI 行業(yè)化落地過程中數(shù)據(jù)工程耗時長、模型訓(xùn)練和...
閱讀原文

Ideogram 3.0

Ideogram 3.0 是Ideogram推出的 AI 圖像生成模型。Ideogram 3.0在圖像生成質(zhì)量上實現(xiàn)飛躍,具備高度的真實感、出色的文本渲染和強大的語言理解能力,支持生成...
閱讀原文

Qwen2.5-Omni

Qwen2.5-Omni 是阿里開源的 Qwen 系列旗艦級多模態(tài)模型,擁有7B參數(shù),Qwen2.5-Omni具備強大的多模態(tài)感知能力,能處理文本、圖像、音頻和視頻輸入,支持流式文...
閱讀原文

Cosmos-Reason1

Cosmos-Reason1 是 NVIDIA 推出的一系列多模態(tài)大型語言模型,基于物理常識和具身推理理解物理世界。Cosmos-Reason1包括兩個模型:Cosmos-Reason1-8B 和 Cosmo...
閱讀原文
191011121362