騰訊混元文生圖大模型開源:Sora 同架構(gòu),更懂中文
AIGC動態(tài)歡迎閱讀
原標(biāo)題:騰訊混元文生圖大模型開源:Sora 同架構(gòu),更懂中文
關(guān)鍵字:騰訊,模型,視頻,能力,參數(shù)
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):16850字
內(nèi)容摘要:
又一家大模型開源了,這次是騰訊。
5 月 14 日,騰訊旗下的混元文生圖大模型宣布對外開源,目前已在 Hugging Face 平臺及 Github 上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型,可供企業(yè)與個人開發(fā)者免費(fèi)商用。
隨后在 5 月 17 日,騰訊集團(tuán)副總裁蔣杰在在騰訊云生成式 AI 產(chǎn)業(yè)應(yīng)用峰會上表示,騰訊混元大模型通過持續(xù)迭代,目前整體性能已居國內(nèi)第一梯隊(duì),部分中文能力已追平 GPT-4。
針對備受關(guān)注的生視頻能力,騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經(jīng)支持 16s 視頻生成。在生 3D 層面,騰訊混元已布局文/圖生 3D,單圖僅需 30 秒即可生成 3D 模型。
混元文生圖大模型是業(yè)內(nèi)首個中文原生的 DiT(Diffusion Models with transformer)架構(gòu)文生圖開源模型,這也是 Sora 和 Stable Diffusion 3 的同款架構(gòu)和關(guān)鍵技術(shù),是一種基于 Transformer 架構(gòu)的擴(kuò)散模型。混元文生圖大模型支持中英文雙語輸入及理解,參數(shù)量 15 億。
過去,視覺生成擴(kuò)散模型主要基于 U-N
原文鏈接:騰訊混元文生圖大模型開源:Sora 同架構(gòu),更懂中文
聯(lián)系作者
文章來源:Founder Park
作者微信:Founder-Park
作者簡介:來自極客公園,專注與科技創(chuàng)業(yè)者聊「真問題」。