AI項目和框架
VideoReward
VideoReward 是香港中文大學(xué)、清華大學(xué)、快手科技等聯(lián)合創(chuàng)建的視頻生成偏好數(shù)據(jù)集及獎勵模型。包含182,000條標(biāo)注數(shù)據(jù),涵蓋視覺質(zhì)量、運動質(zhì)量和文本對齊三個...
RealtimeSTT
RealtimeSTT是開源的實時語音轉(zhuǎn)文本庫,專為低延遲應(yīng)用設(shè)計。有強大的語音活動檢測功能,可自動識別說話的開始與結(jié)束,通過WebRTCVAD和SileroVAD進行精準(zhǔn)檢測...
Step R-mini
Step R-mini(全稱Step Reasoner mini)是階躍星辰推出的推理模型, 是 Step 系列模型家族的首個推理模型,擅長主動規(guī)劃、嘗試和反思,基于慢思考和反復(fù)驗證...
GLM-Realtime
GLM-Realtime是智譜推出的全新端到端多模態(tài)模型,具備低延遲的視頻理解與語音交互能力,特別融入清唱功能,讓大模型在對話中能展現(xiàn)歌唱才能。模型支持長達2分...
CogView-3-Flash
CogView-3-Flash 是智譜推出的首個免費AI圖像生成模型,能根據(jù)文本描述生成高審美分?jǐn)?shù)的圖像,支持多種分辨率,滿足專業(yè)領(lǐng)域需求。模型具備創(chuàng)意多樣性,基于...
Kokoro-TTS
Kokoro-TTS 是 hexgrad 開發(fā)的輕量級文本轉(zhuǎn)語音(TTS)模型,具有 8200 萬參數(shù)。基于 StyleTTS 2 和 ISTFTNet 的混合架構(gòu),采用純解碼器設(shè)計,不使用擴散模型...
粵公網(wǎng)安備 44011502001135號