首個中文原生DiT架構(gòu),已開源!大模型Hunyuan-DiT技術(shù)報告詳解
AIGC動態(tài)歡迎閱讀
原標(biāo)題:首個中文原生DiT架構(gòu),已開源!大模型Hunyuan-DiT技術(shù)報告詳解
關(guān)鍵字:報告,模型,圖像,文本,數(shù)據(jù)
文章來源:算法邦
內(nèi)容字?jǐn)?shù):20718字
內(nèi)容摘要:
直播預(yù)告 | 5月23日晚7點,「智猩猩機(jī)器人新青年講座」第6講正式開講,論文一作、清華大學(xué)在讀博士郭旭東將直播講解《大模型在具身多智能體合作中的研究進(jìn)展與展望》,歡迎掃名~非常令人激動,騰訊混元文生圖大模型已在 Hugging Face 平臺及 Github 上發(fā)布,包含模型權(quán)重、推理代碼、模型算法等完整模型。
且不管是企業(yè)還是個人開發(fā)者,全部免費可用。
主頁:https://dit.hunyuan.tencent.com/ 代碼:https://github.com/Tencent/HunyuanDiT下面來詳細(xì)介紹下混元大模型的技術(shù)細(xì)節(jié),期待國內(nèi)更多大模型能發(fā)布,讓AIGC行業(yè)應(yīng)用全面爆發(fā):
Hunyuan-DiT,這是一種具備細(xì)粒度理解能力的文本到圖像擴(kuò)散transformer,能夠處理中文和英文。為了構(gòu)建Hunyuan-DiT,精心設(shè)計了transformer結(jié)構(gòu)、文本編碼器和位置編碼。此外,還從頭開始建立了完整的數(shù)據(jù)pipeline,以更新和評估數(shù)據(jù),進(jìn)行迭代的模型優(yōu)化。
為了實現(xiàn)細(xì)粒度的語言理解,訓(xùn)練了一種多模態(tài)大語言模型,用于細(xì)化圖像的標(biāo)題描述。最終,Hunyuan
原文鏈接:首個中文原生DiT架構(gòu),已開源!大模型Hunyuan-DiT技術(shù)報告詳解
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關(guān)注模型與應(yīng)用。