騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,免費(fèi)商用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,免費(fèi)商用
關(guān)鍵字:騰訊,模型,架構(gòu),中文,能力
文章來(lái)源:智東西
內(nèi)容字?jǐn)?shù):9404字
內(nèi)容摘要:
首個(gè)中文原生DiT架構(gòu),中文原生文生圖大模型來(lái)了!
作者|ZeR0
編輯|漠影
智東西5月15日?qǐng)?bào)道,騰訊文生圖負(fù)責(zé)人蘆清林周二宣布騰訊混元文生圖大模型全面開(kāi)源。
該模型已在Hugging Face平臺(tái)及Github上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,與騰訊混元文生圖產(chǎn)品最新版本完全一致,基于騰訊海量應(yīng)用場(chǎng)景訓(xùn)練,可供企業(yè)與個(gè)人開(kāi)發(fā)者免費(fèi)商用。
這是業(yè)內(nèi)首個(gè)中文原生的DiT架構(gòu)文生圖開(kāi)源模型,支持中英文雙語(yǔ)輸入及理解,參數(shù)量15億。
跟其他業(yè)界開(kāi)源模型對(duì)比,混元DiT在多個(gè)維度上無(wú)短板,并在美學(xué)和清晰度維度上具有一定優(yōu)勢(shì)。其綜合指標(biāo)在所有開(kāi)源和閉源算法中排名第三,實(shí)現(xiàn)開(kāi)源版本中的SOTA。
評(píng)測(cè)數(shù)據(jù)顯示,騰訊混元文生圖模型效果遠(yuǎn)超開(kāi)源的Stable Diffusion模型及其他開(kāi)源文生圖模型,是目前效果最好的開(kāi)源文生圖模型;整體能力屬于國(guó)際領(lǐng)先水平。
升級(jí)后的混元文生圖大模型采用了與Sora、Stable Diffusion 3一致的DiT架構(gòu),可支持文生圖,也可作為視頻等多模態(tài)視覺(jué)生成的基礎(chǔ)。
混元文生圖整體模型主要由3個(gè)部分組成:a)多模態(tài)大語(yǔ)言模型,支持用戶文本改
原文鏈接:騰訊混元文生圖大模型全面開(kāi)源!Sora同架構(gòu),更懂中文,免費(fèi)商用
聯(lián)系作者
文章來(lái)源:智東西
作者微信:zhidxcom
作者簡(jiǎn)介:智能產(chǎn)業(yè)新媒體!智東西專注報(bào)道人工智能主導(dǎo)的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來(lái)的千行百業(yè)產(chǎn)業(yè)升級(jí)。聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。