紫東太初 – 多模態(tài)大模型
紫東太初 – 多模態(tài)大模型官網(wǎng)入口網(wǎng)址,全球首個(gè)多模態(tài)圖文音預(yù)訓(xùn)練模型
標(biāo)簽:AIGC寫作平臺(tái) AI自然語(yǔ)言處理模型AIGC寫作平臺(tái) AI自然語(yǔ)言處理模型 標(biāo)題摘要 海報(bào)創(chuàng)作 視頻配音 語(yǔ)音播報(bào)紫東太初 – 多模態(tài)大模型官網(wǎng)
全球首個(gè)多模態(tài)圖文音預(yù)訓(xùn)練模型
網(wǎng)站服務(wù):標(biāo)題摘要,海報(bào)創(chuàng)作,視頻配音,語(yǔ)音播報(bào)。
紫東太初多模態(tài)大模型
“紫東太初”跨模態(tài)通用人工智能平臺(tái)是由中國(guó)科學(xué)院自動(dòng)化研究所研發(fā)的以多模態(tài)大模型為核心、基于全棧國(guó)產(chǎn)化基礎(chǔ)軟硬件平臺(tái),可支撐全場(chǎng)景AI應(yīng)用。依托面向超大規(guī)模的高效分布式訓(xùn)練框架,自動(dòng)化所構(gòu)建了具有業(yè)界領(lǐng)先性能的中文預(yù)訓(xùn)練模型、語(yǔ)音預(yù)訓(xùn)練模型、視覺(jué)預(yù)訓(xùn)練模型,并開拓性地通過(guò)跨模態(tài)語(yǔ)義關(guān)聯(lián)實(shí)現(xiàn)了視覺(jué)-文本-語(yǔ)音三模態(tài)統(tǒng)一表示,構(gòu)建了三模態(tài)預(yù)訓(xùn)練大模型,賦予跨模態(tài)通用人工智能平臺(tái)多種核心能力。“紫東太初”兼具跨模態(tài)理解和生成能力,具有了在無(wú)監(jiān)督情況下多任務(wù)聯(lián)合學(xué)習(xí)、并快速遷移到不同領(lǐng)域數(shù)據(jù)的強(qiáng)大能力。對(duì)更廣泛、更多樣的下游任務(wù)提供模型基礎(chǔ)支撐,達(dá)成AI在如視頻配音、語(yǔ)音播報(bào)、標(biāo)題摘要、海報(bào)創(chuàng)作等更多元場(chǎng)景的應(yīng)用。特色:
- 全球首個(gè)多模態(tài)圖文音預(yù)訓(xùn)練模型
- 多層次多任務(wù)自監(jiān)督學(xué)習(xí)
- 弱關(guān)聯(lián)多模態(tài)數(shù)據(jù)語(yǔ)義統(tǒng)一表達(dá)
- 兼顧任務(wù)感知和推理增強(qiáng)的中文預(yù)訓(xùn)練模型
- 多粒度學(xué)習(xí)與注意力指導(dǎo)的視覺(jué)預(yù)訓(xùn)練模型
- 基于自監(jiān)督預(yù)訓(xùn)練的多任務(wù)語(yǔ)音建模技術(shù)
中文預(yù)訓(xùn)練模型
文本預(yù)訓(xùn)練模型使用條件語(yǔ)言模型作為自監(jiān)督目標(biāo)進(jìn)行訓(xùn)練,和GPT一樣,模型根據(jù)上文來(lái)預(yù)測(cè)當(dāng)前詞匯,最終訓(xùn)練得到的模型可以生成流暢的中文表達(dá)。本次開源的中文文本預(yù)訓(xùn)練模型由40層Transformer組成,隱層維度2560,包含32個(gè)注意力頭,共32億參數(shù)。訓(xùn)練語(yǔ)料豐富多樣,包括新聞、百科、散文等,文本生成能力強(qiáng)大。中文預(yù)訓(xùn)練模型基礎(chǔ)上還可以進(jìn)行微調(diào)操作,充分利用少量有監(jiān)督數(shù)據(jù)增強(qiáng)模型在下游任務(wù)上的表現(xiàn),如文本分類,對(duì)話生成、古詩(shī)創(chuàng)作等;除此之外,中文預(yù)訓(xùn)練模型還能夠?qū)崿F(xiàn)簡(jiǎn)單的少樣本學(xué)習(xí),如下圖所示,輸入已知的部分樣例,模型能夠捕捉類似的規(guī)律進(jìn)行文本生成。
安裝與使用
具體安裝步驟請(qǐng)參見text.
視覺(jué)預(yù)訓(xùn)練模型
模型介紹
現(xiàn)有的掩碼語(yǔ)言模型的隨機(jī)遮蔽方式容易對(duì)圖像中重要的前景目標(biāo)遮蔽,讓模型產(chǎn)生誤解,不利于快速收斂。然而,在無(wú)監(jiān)督的情況下,如何自適應(yīng)的調(diào)整遮蔽區(qū)域是一個(gè)非常關(guān)鍵的難點(diǎn)問(wèn)題。為此,我們巧妙的利用Transformer中的自注意力機(jī)制,并且設(shè)計(jì)了一種動(dòng)態(tài)掩碼機(jī)制來(lái)對(duì)圖像進(jìn)行預(yù)訓(xùn)練。具體來(lái)說(shuō),我們的視覺(jué)動(dòng)態(tài)掩碼機(jī)制采用teacher網(wǎng)絡(luò)中最后的自注意力圖作為指導(dǎo),以一定的概率選擇響應(yīng)較低的區(qū)域?qū)tudent網(wǎng)絡(luò)的輸入進(jìn)行動(dòng)態(tài)遮蔽Attn=1H∑Hh=1Softmax(Qclsh?KThd√)????=1?∑?=1????????(??????????)mi=?????????????1,andAtteni<τ0,probi<potherwise??={1,?????<??????????<?0,?????????相比BERT中MLM的隨機(jī)遮蔽方式,動(dòng)態(tài)遮蔽方式避免了破壞圖像/目標(biāo)的關(guān)鍵結(jié)構(gòu),而這些關(guān)鍵結(jié)構(gòu)的遮蔽往往使得訓(xùn)練中的模型產(chǎn)生誤解,降低預(yù)訓(xùn)練模型的關(guān)注度。下圖展示了我們的動(dòng)態(tài)掩碼與隨機(jī)掩碼的區(qū)別,可以看出,通過(guò)動(dòng)態(tài)掩碼的方式,圖像中目標(biāo)的完整結(jié)構(gòu)得以保留。進(jìn)一步,被遮蔽的局部塊與剩余的局部塊一起送入全局圖像解碼器,以恢復(fù)圖像的完整結(jié)構(gòu)。最后,我們的損失函數(shù)為對(duì)比損失+圖像重建損失,兩種損失都采用自監(jiān)督的方式進(jìn)行學(xué)習(xí),并結(jié)合動(dòng)態(tài)掩碼機(jī)制,顯示捕捉圖像局部上下文信息并保留全圖語(yǔ)義信息。圖像解碼器部分采用經(jīng)典的特征金字塔結(jié)構(gòu),完美保留圖像空間信息,因此對(duì)下游密集預(yù)測(cè)任務(wù)更加友好,無(wú)縫支持下游目標(biāo)檢測(cè)、語(yǔ)義分割任務(wù)的微調(diào)。
紫東太初 – 多模態(tài)大模型網(wǎng)址入口
https://gitee.com/zidongtaichu/multi-modal-models

OpenI小編發(fā)現(xiàn)紫東太初 – 多模態(tài)大模型網(wǎng)站非常受用戶歡迎,請(qǐng)?jiān)L問(wèn)紫東太初 – 多模態(tài)大模型網(wǎng)址入口試用。
數(shù)據(jù)評(píng)估
本站OpenI提供的紫東太初 – 多模態(tài)大模型都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2023年 9月 23日 上午9:01收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。


粵公網(wǎng)安備 44011502001135號(hào)