新加坡國立大學(xué)發(fā)布圖文預(yù)訓(xùn)練框架 CosMo,助力長文本理解
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:新加坡國立大學(xué)發(fā)布圖文預(yù)訓(xùn)練框架 CosMo,助力長文本理解
關(guān)鍵字:數(shù)據(jù),模型,文本,性能,視頻
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):9802字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 智商掉了一地、Python近年來,隨著大型語言模型(LLM)的興起,讓多模態(tài)學(xué)習(xí)領(lǐng)域也得到了不斷發(fā)展。本文作者深入探討了視覺-語言預(yù)訓(xùn)練模型的進(jìn)展,特別關(guān)注了從短文本理解到長文本理解的重要性。
通過在文本生成模型中引入對(duì)比損失,作者提出了一種新穎的架構(gòu) CosMo,進(jìn)一步擴(kuò)展了視覺-語言預(yù)訓(xùn)練的演進(jìn)路徑,以實(shí)現(xiàn)不同模態(tài)之間更高效的對(duì)比學(xué)習(xí)。CosMo 這一統(tǒng)一框架巧妙地將語言模型劃分為專用的單模態(tài)文本處理和擅長多模態(tài)數(shù)據(jù)處理的組件,從而提高了模型在涉及文本和視覺數(shù)據(jù)的任務(wù)中的性能,并減少了可學(xué)習(xí)參數(shù)。
為了應(yīng)對(duì)長文本數(shù)據(jù)集的需求,作者創(chuàng)建了一個(gè)包含詳細(xì)字幕的視頻-文本數(shù)據(jù)集 Howto-Interlink7M。論文還展示了如何利用這個(gè)數(shù)據(jù)集提高圖像-文本任務(wù)模型的性能。通過在保留更少可學(xué)習(xí)參數(shù)的同時(shí)利用更多可用數(shù)據(jù),本文的模型顯著改善了性能。
論文題目: COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
論文鏈接: https://arxiv.org/a
原文鏈接:新加坡國立大學(xué)發(fā)布圖文預(yù)訓(xùn)練框架 CosMo,助力長文本理解
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:更快的AI前沿,更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠,兼?zhèn)涿襟wsense與技術(shù)深度。