標(biāo)簽:多語言支持

F5-TTS

F5-TTS是由上海交通大學(xué)開源的一款高性能文本到語音(TTS)系統(tǒng),基于流匹配的非自回歸生成方法,結(jié)合擴(kuò)散變換器(DiT)技術(shù)。系統(tǒng)在沒有額外監(jiān)督的情況下,...
閱讀原文

Cooraft

Cooraft是一款基于AI技術(shù),將普通照片轉(zhuǎn)化為具有創(chuàng)意和藝術(shù)性的動畫和渲染圖的應(yīng)用程序。Cooraft提供多種藝術(shù)風(fēng)格,如3D卡通、經(jīng)典繪畫等,一鍵將自拍或日常...
閱讀原文

攬睿星舟

攬睿星舟是一個云端AI訓(xùn)推一體算力平臺,由翼方健數(shù)自主研發(fā)。提供高性價比的GPU計算資源、開箱即用的訓(xùn)推環(huán)境及AI工具鏈,旨在解決AI協(xié)作過程中的安全信任問...
閱讀原文

Surya

Surya是一款功能強(qiáng)大的開源OCR(光學(xué)字符識別)工具包,專門設(shè)計用在文檔識別,支持超過90種語言的識別。Surya能準(zhǔn)確識別出文檔中的文本,分析文本的閱讀順序...
閱讀原文

Illuminate

Illuminate 是一個由谷歌開發(fā)的項目,能將學(xué)術(shù)論文轉(zhuǎn)化為人工智能生成的音頻討論。項目基于谷歌強(qiáng)大的語言模型 Gemini,將論文內(nèi)容轉(zhuǎn)換成引人入勝的對話,使...
閱讀原文

FLUX.1-Turbo-Alpha

FLUX.1-Turbo-Alpha是阿里媽媽創(chuàng)意團(tuán)隊基于FLUX.1-dev模型訓(xùn)練的8步蒸餾Lora模型。基于多頭判別器技術(shù),升圖像生成的質(zhì)量,支持文本到圖像的生成及修復(fù)控制網(wǎng)...
閱讀原文

fal

al是一個面向開發(fā)者的AI平臺,專注于生成音頻、視頻和圖像。fal提供高性能的推理引擎,支持實時應(yīng)用,采用靈活的按需付費模式。fal支持跨平臺集成,提供實時...
閱讀原文

AsrTools

AsrTools是一款高效的智能語音轉(zhuǎn)文字工具,能將音頻文件快速轉(zhuǎn)換成精確的文字內(nèi)容。工具的優(yōu)勢在于無需復(fù)雜的配置,直接調(diào)用大廠的ASR接口,無需GPU支持,用...
閱讀原文

Baichuan-Omni

Baichuan-Omni 是由百川智能推出的一款開源的 7B 多模態(tài)大型語言模型(MLLM),能同時處理和分析圖像、視頻、音頻和文本等多種模態(tài)的數(shù)據(jù)。Baichuan-Omni 提...
閱讀原文

saga

saga是一個集成人工智能的創(chuàng)意工作區(qū)平臺,通過運用先進(jìn)的大型語言模型(LLMs),如OpenAI和Anthropic開發(fā)的模型,幫助用戶進(jìn)行創(chuàng)意生成、主題分析、關(guān)鍵詞提...
閱讀原文

BANTER AI

BanterAI 是一個創(chuàng)新的AI平臺,基于先進(jìn)的技術(shù)讓用戶與名人的虛擬克隆體進(jìn)行實時語音對話。平臺提供一個沉浸式的體驗,用戶與喜歡的藝人、演員或歷史人物的克...
閱讀原文

Langotalk

Langotalk是一個創(chuàng)新的在線語言學(xué)習(xí)平臺,基于AI技術(shù)為語言學(xué)習(xí)者提供個性化和沉浸式的學(xué)習(xí)體驗。平臺支持20多種語言,如英語、西班牙語、法語、德語、意大利...
閱讀原文

Gliglish

Gliglish 是一個創(chuàng)新的語言學(xué)習(xí)平臺,基于AI技術(shù)模擬真實的對話場景,幫助用戶提高口語和聽力水平。平臺基于先進(jìn)的語音識別和自然語言處理技術(shù),讓用戶用語音...
閱讀原文

FunASR

FunASR是由阿里巴巴達(dá)摩院開源的語音識別工具包,提供包括語音識別(ASR)、語音活動檢測(VAD)、標(biāo)點恢復(fù)、語言模型、說話人驗證、說話人分離及多說話人ASR...
閱讀原文

Hallo2

Hallo2是復(fù)旦大學(xué)、百度公司和南京大學(xué)共同推出的音頻驅(qū)動視頻生成模型。能將單張參考圖片和持續(xù)幾分鐘的音頻輸入結(jié)合起來,基于可選的文本提示調(diào)節(jié)肖像表情...
閱讀原文
1505152535461