AI項(xiàng)目和框架

Arctic

Arctic是由云計(jì)算巨頭Snowflake的AI研究團(tuán)隊(duì)開發(fā)的一款高效、開源的企業(yè)級(jí)大型語(yǔ)言模型,該大模型是一個(gè)擁有480億(480B)的參數(shù)規(guī)模,由128個(gè)細(xì)粒度的專家構(gòu)...
閱讀原文

OpenELM

OpenELM是Apple蘋果公司最新推出的系列高效開源的語(yǔ)言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同參數(shù)規(guī)模的版本。該大模型利用層...
閱讀原文

ID-Animator

ID-Animator是由來自騰訊光子工作室、中科大和中科院合肥物質(zhì)科學(xué)研究院的研究人員推出的一種零樣本(zero-shot)人類視頻生成技術(shù),能夠根據(jù)單張參考面部圖...
閱讀原文

IDM-VTON

IDM-VTON是由韓國(guó)科學(xué)技術(shù)院和OMNIOUS.AI的研究人員提出的一種先進(jìn)的AI虛擬試穿技術(shù),通過改進(jìn)擴(kuò)散模型來生成逼真的人物穿戴圖像,實(shí)現(xiàn)更真實(shí)的虛擬試穿效果。
閱讀原文

VideoGigaGAN

VideoGigaGAN是由Adobe和馬里蘭大學(xué)的研究人員提出的一種新型的生成式視頻超分辨率(VSR)模型,最高可將視頻分辨率提升8倍,將模糊的視頻放大為具有豐富細(xì)節(jié)...
閱讀原文

PuLID

PuLID是字節(jié)跳動(dòng)的團(tuán)隊(duì)開源的一種個(gè)性化文本到圖像生成技術(shù),通過對(duì)比對(duì)齊和快速采樣方法,實(shí)現(xiàn)了無(wú)需調(diào)整模型的高效ID定制,輕松實(shí)現(xiàn)圖像換臉效果。
閱讀原文

IC-Light

IC-Light是一款由ControlNet作者張呂敏開發(fā)的AI圖像打光處理工具,可以對(duì)圖片進(jìn)行光源操縱和光影重構(gòu),實(shí)現(xiàn)與不同背景的完美融合。用戶只需上傳圖片,選擇光...
閱讀原文

AniTalker

AniTalker是由來自上海交大X-LANCE實(shí)驗(yàn)室和思必馳AISpeech的研究人員推出的一個(gè)對(duì)口型說話視頻生成框架,能夠?qū)螐堨o態(tài)人像和輸入的音頻轉(zhuǎn)換成栩栩如生的動(dòng)...
閱讀原文

混元DiT

混元DiT(Hunyuan-DiT)是由騰訊混元團(tuán)隊(duì)開發(fā)的一款高性能的文本到圖像的擴(kuò)散Transformer模型,具備細(xì)粒度的中英文理解能力,能夠根據(jù)文本提示生成多分辨率的...
閱讀原文

Veo

Veo是由Google DeepMind開發(fā)的一款視頻生成模型,用戶可以通過文本、圖像或視頻提示來指導(dǎo)其生成所需的視頻內(nèi)容,能夠生成時(shí)長(zhǎng)超過一分鐘1080P分辨率的高質(zhì)量...
閱讀原文

CogVLM2

CogVLM2是由智譜AI推出的新一代多模態(tài)大模型,在視覺和語(yǔ)言理解方面實(shí)現(xiàn)了顯著的性能提升,支持高達(dá)8K的文本長(zhǎng)度和1344*1344分辨率的圖像輸入,具備強(qiáng)大的文...
閱讀原文

Universal-1

Universal-1是AI語(yǔ)音初創(chuàng)公司AssemblyAI推出的一款多語(yǔ)言語(yǔ)音識(shí)別和轉(zhuǎn)錄模型,經(jīng)過超過1250萬(wàn)小時(shí)的多語(yǔ)種音頻數(shù)據(jù)訓(xùn)練,支持英語(yǔ)、西班牙語(yǔ)、法語(yǔ)和德語(yǔ)等。
閱讀原文

Codestral

Codestral是法國(guó)人工智能初創(chuàng)公司Mistral AI推出的一款代碼生成AI模型,專為提高軟件開發(fā)效率而設(shè)計(jì),支持超過80種編程語(yǔ)言,包括但不限于Python、Java、C、C...
閱讀原文

ChatTTS

ChatTTS是一款專為對(duì)話場(chǎng)景設(shè)計(jì)的支持中英文的文本轉(zhuǎn)語(yǔ)音(TTS)模型,基于約10萬(wàn)小時(shí)的中英文數(shù)據(jù)進(jìn)行訓(xùn)練,能夠生成高質(zhì)量、自然流暢的對(duì)話語(yǔ)音。
閱讀原文

Seed-TTS

Seed-TTS是由字節(jié)跳動(dòng)開發(fā)的一系列高級(jí)文本到語(yǔ)音(Text to Speech,TTS)模型,能夠生成與人類語(yǔ)音極為相似的高質(zhì)量語(yǔ)音,具備出色的上下文學(xué)習(xí)能力和自然度。
閱讀原文