AI項目和框架

mPLUG-DocOwl2

mPLUG-DocOwl 2是由阿里巴巴通義實驗室mPLUG團隊推出的用于多頁文檔理解的多模態(tài)大型語言模型。在不依賴光學(xué)字符識別(OCR)技術(shù)的情況下,通過高分辨率文檔...
閱讀原文

QA-MDT

QA-MDT(Quality-aware Masked Diffusion Transformer)是由中國科學(xué)技術(shù)大學(xué)和科大訊飛聯(lián)合推出的開源音樂生成模型。模型基于文本描述生成高質(zhì)量且音樂性強...
閱讀原文

Animate Anyone

Animate Anyone是由阿里巴巴智能計算研究院推出的一款將靜態(tài)圖像中的角色或人物進行動態(tài)化的開源框架,該框架在擴散模型的基礎(chǔ)之上,引入了ReferenceNet、Pos...
閱讀原文

ReplaceAnything

ReplaceAnything是由阿里巴巴智能計算研究院推出的一款開源AI圖像內(nèi)容替換框架,利用先進的人工智能技術(shù),能夠?qū)崿F(xiàn)對照片或圖像中物體的智能替換。用戶可以通...
閱讀原文

Outfit Anyone

Outfit Anyone是由阿里巴巴智能計算研究院推出的一個高質(zhì)量服裝虛擬試穿的開源項目,借助該技術(shù),用戶或模特?zé)o需親自試穿衣服即可預(yù)覽上身效果。Outfit Anyon...
閱讀原文

FaceChain

FaceChain是阿里巴巴達摩院推出的一個開源的人物寫真和個人數(shù)字形象的AI生成框架(類似于免費開源版的妙鴨相機),用戶僅需要提供最少一張照片即可生成獨屬于...
閱讀原文

Motionshop

Motionshop是阿里巴巴智能計算研究院推出的一個AI角色動畫框架,可將視頻中的人物角色替換為3D化身,同時不改變視頻中的其他場景和人物。該框架利用視頻處理...
閱讀原文

AnyText

AnyText是阿里巴巴智能計算研究院的團隊推出的一個基于擴散的多語言視覺文本生成和編輯模型,專注于在圖像中渲染準確和連貫的文本。AnyText包括兩個主要元素...
閱讀原文

InstantID

InstantID是一種基于擴散模型的圖像生成技術(shù),它專注于實現(xiàn)零次(zero-shot)身份保留(Identity-Preserving)的個性化圖像合成。這項技術(shù)允許用戶僅使用一張...
閱讀原文

VideoCrafter2

VideoCrafter2是一個由騰訊AI實驗室開發(fā)的視頻生成模型,旨在克服高質(zhì)量視頻數(shù)據(jù)獲取的局限性,訓(xùn)練出能夠生成高質(zhì)量視頻的模型。該模型的核心思想是將視頻的...
閱讀原文

Screenshot to Code

Sscreenshot to Code是一個開源的項目,利用人工智能技術(shù)(GPT-4V 和 DALL·E 3)將用戶的屏幕截圖轉(zhuǎn)換為前端網(wǎng)頁代碼。項目的核心功能是自動化網(wǎng)頁設(shè)計的編碼...
閱讀原文

DDColor

DDColor是阿里達摩院的研究人員推出的一個開源的AI圖像著色框架,可以一鍵將黑白圖片上色變?yōu)槿蕡D像。該方法通過使用雙解碼器架構(gòu)(像素解碼器和顏色解碼器...
閱讀原文

DemoFusion

DemoFusion是一個旨在低成本進行高分辨率圖像生成的技術(shù)框架,通過擴展現(xiàn)有的開源生成人工智能模型(如Stable Diffusion),使得這些模型能夠在不進行額外訓(xùn)...
閱讀原文

ActAnywhere

ActAnywhere是一個由斯坦福大學(xué)和Adobe Research的研究人員共同開發(fā)的視頻生成模型,旨在解決視頻背景生成的問題,特別是在需要將前景主體(如人物)與新背景...
閱讀原文

Lepton Search

Lepton Search是由原阿里巴巴技術(shù)副總裁和AI科學(xué)家賈揚清創(chuàng)辦的Lepton AI應(yīng)用構(gòu)建平臺開源的一個對話式AI搜素引擎,該項目基于調(diào)用Lepton平臺上的云端人工智...
閱讀原文