騰訊混元文生圖大模型開源:Sora 同架構,更懂中文
AIGC動態歡迎閱讀
原標題:騰訊混元文生圖大模型開源:Sora 同架構,更懂中文
關鍵字:騰訊,模型,視頻,能力,參數
文章來源:Founder Park
內容字數:16850字
內容摘要:
又一家大模型開源了,這次是騰訊。
5 月 14 日,騰訊旗下的混元文生圖大模型宣布對外開源,目前已在 Hugging Face 平臺及 Github 上發布,包含模型權重、推理代碼、模型算法等完整模型,可供企業與個人開發者免費商用。
隨后在 5 月 17 日,騰訊集團副總裁蔣杰在在騰訊云生成式 AI 產業應用峰會上表示,騰訊混元大模型通過持續迭代,目前整體性能已居國內第一梯隊,部分中文能力已追平 GPT-4。
針對備受關注的生視頻能力,騰訊混元支持文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經支持 16s 視頻生成。在生 3D 層面,騰訊混元已布局文/圖生 3D,單圖僅需 30 秒即可生成 3D 模型。
混元文生圖大模型是業內首個中文原生的 DiT(Diffusion Models with transformer)架構文生圖開源模型,這也是 Sora 和 Stable Diffusion 3 的同款架構和關鍵技術,是一種基于 Transformer 架構的擴散模型。混元文生圖大模型支持中英文雙語輸入及理解,參數量 15 億。
過去,視覺生成擴散模型主要基于 U-N
原文鏈接:騰訊混元文生圖大模型開源:Sora 同架構,更懂中文
聯系作者
文章來源:Founder Park
作者微信:Founder-Park
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...