AI項目和框架
MotionCtrl
MotionCtrl是由來自騰訊和香港大學(xué)等機構(gòu)的研究人員推出的一個為視頻生成模型設(shè)計的統(tǒng)一且靈活的運動控制器,能夠獨立地控制視頻中的相機運動和物體運動視角...
AnimateDiff
AnimateDiff是由上海人工智能實驗室、香港中文大學(xué)和斯坦福大學(xué)的研究人員推出的一款將個性化的文本到圖像模型擴展為動畫生成器的框架,其核心在于它能夠利用...
Depth Anything
Depth Anything是由來自Tiktok、香港大學(xué)和浙江大學(xué)的研究人員推出的一個為單目深度估計設(shè)計的深度學(xué)習(xí)模型,旨在處理各種情況下的圖像并估計其深度信息。該...
Stable Diffusion 3
Stable Diffusion 3 是由 Stability AI 開發(fā)的一款先進的文本到圖像生成模型,是 Stable Diffusion 系列模型的最新迭代,旨在通過文本提示生成高質(zhì)量的圖像。...
ConsiStory
ConsiStory是由NVIDIA和特拉維夫大學(xué)的研究人員共同開發(fā)的一種無需訓(xùn)練的文本生成圖像的方法,可以實現(xiàn)讓圖像在保持風(fēng)格和主題不變的情況下,遵循不同的文本...
ScreenAgent
ScreenAgent是一個由吉林大學(xué)人工智能學(xué)院的研究團隊開發(fā)的計算機控制智能體,該智能體是基于視覺語言模型(VLM)構(gòu)建的,能夠與真實計算機屏幕進行交互。Scr...
VideoPrism
VideoPrism是一個由谷歌研究團隊開發(fā)的通用視頻編碼器,旨在通過一個單一的凍結(jié)模型來處理多種視頻理解任務(wù)。該模型能夠從視頻中提取豐富的語義表示,使其能...
GPT-SoVITS
GPT-SoVITS是一個開源的聲音克隆項目,該語音合成工具結(jié)合了GPT模型和SoVITS變聲器技術(shù),僅需通過少量的樣本數(shù)據(jù)實現(xiàn)高質(zhì)量的語音克隆和文本到語音轉(zhuǎn)換。該工...
OpenCodeInterpreter
OpenCodeInterpreter是一個開源的代碼解釋器系統(tǒng),旨在通過利用大模型結(jié)合代碼生成、執(zhí)行和迭代精煉的能力,可以輔助開發(fā)者在軟件開發(fā)過程中生成、測試和優(yōu)化...
ChatMusician
ChatMusician是由Multimodal Art Projection Research Community、Skywork AI和香港科技大學(xué)的研究人員推出的,一個開源的用于理解和生成音樂的大型語言模型...