AI項目和框架
mPLUG-DocOwl2
mPLUG-DocOwl 2是由阿里巴巴通義實驗室mPLUG團隊推出的用于多頁文檔理解的多模態(tài)大型語言模型。在不依賴光學(xué)字符識別(OCR)技術(shù)的情況下,通過高分辨率文檔...
Animate Anyone
Animate Anyone是由阿里巴巴智能計算研究院推出的一款將靜態(tài)圖像中的角色或人物進行動態(tài)化的開源框架,該框架在擴散模型的基礎(chǔ)之上,引入了ReferenceNet、Pos...
ReplaceAnything
ReplaceAnything是由阿里巴巴智能計算研究院推出的一款開源AI圖像內(nèi)容替換框架,利用先進的人工智能技術(shù),能夠?qū)崿F(xiàn)對照片或圖像中物體的智能替換。用戶可以通...
Outfit Anyone
Outfit Anyone是由阿里巴巴智能計算研究院推出的一個高質(zhì)量服裝虛擬試穿的開源項目,借助該技術(shù),用戶或模特?zé)o需親自試穿衣服即可預(yù)覽上身效果。Outfit Anyon...
VideoCrafter2
VideoCrafter2是一個由騰訊AI實驗室開發(fā)的視頻生成模型,旨在克服高質(zhì)量視頻數(shù)據(jù)獲取的局限性,訓(xùn)練出能夠生成高質(zhì)量視頻的模型。該模型的核心思想是將視頻的...
Screenshot to Code
Sscreenshot to Code是一個開源的項目,利用人工智能技術(shù)(GPT-4V 和 DALL·E 3)將用戶的屏幕截圖轉(zhuǎn)換為前端網(wǎng)頁代碼。項目的核心功能是自動化網(wǎng)頁設(shè)計的編碼...
DemoFusion
DemoFusion是一個旨在低成本進行高分辨率圖像生成的技術(shù)框架,通過擴展現(xiàn)有的開源生成人工智能模型(如Stable Diffusion),使得這些模型能夠在不進行額外訓(xùn)...
ActAnywhere
ActAnywhere是一個由斯坦福大學(xué)和Adobe Research的研究人員共同開發(fā)的視頻生成模型,旨在解決視頻背景生成的問題,特別是在需要將前景主體(如人物)與新背景...
Lepton Search
Lepton Search是由原阿里巴巴技術(shù)副總裁和AI科學(xué)家賈揚清創(chuàng)辦的Lepton AI應(yīng)用構(gòu)建平臺開源的一個對話式AI搜素引擎,該項目基于調(diào)用Lepton平臺上的云端人工智...
粵公網(wǎng)安備 44011502001135號