新加坡國立大學(xué)發(fā)布圖文預(yù)訓(xùn)練框架 CosMo，助力長文本理解

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布夕小瑤科技說

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：新加坡國立大學(xué)發(fā)布圖文預(yù)訓(xùn)練框架 CosMo，助力長文本理解
關(guān)鍵字：數(shù)據(jù),模型,文本,性能,視頻
文章來源：夕小瑤科技說
內(nèi)容字?jǐn)?shù)：9802字

內(nèi)容摘要：

夕小瑤科技說原創(chuàng)作者 | 智商掉了一地、Python近年來，隨著大型語言模型（LLM）的興起，讓多模態(tài)學(xué)習(xí)領(lǐng)域也得到了不斷發(fā)展。本文作者深入探討了視覺-語言預(yù)訓(xùn)練模型的進(jìn)展，特別關(guān)注了從短文本理解到長文本理解的重要性。
通過在文本生成模型中引入對(duì)比損失，作者提出了一種新穎的架構(gòu) CosMo，進(jìn)一步擴(kuò)展了視覺-語言預(yù)訓(xùn)練的演進(jìn)路徑，以實(shí)現(xiàn)不同模態(tài)之間更高效的對(duì)比學(xué)習(xí)。CosMo 這一統(tǒng)一框架巧妙地將語言模型劃分為專用的單模態(tài)文本處理和擅長多模態(tài)數(shù)據(jù)處理的組件，從而提高了模型在涉及文本和視覺數(shù)據(jù)的任務(wù)中的性能，并減少了可學(xué)習(xí)參數(shù)。
為了應(yīng)對(duì)長文本數(shù)據(jù)集的需求，作者創(chuàng)建了一個(gè)包含詳細(xì)字幕的視頻-文本數(shù)據(jù)集 Howto-Interlink7M。論文還展示了如何利用這個(gè)數(shù)據(jù)集提高圖像-文本任務(wù)模型的性能。通過在保留更少可學(xué)習(xí)參數(shù)的同時(shí)利用更多可用數(shù)據(jù)，本文的模型顯著改善了性能。
論文題目: COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
論文鏈接: https://arxiv.org/a

原文鏈接：新加坡國立大學(xué)發(fā)布圖文預(yù)訓(xùn)練框架 CosMo，助力長文本理解

聯(lián)系作者

文章來源：夕小瑤科技說
作者微信：xixiaoyaoQAQ
作者簡介：更快的AI前沿，更深的行業(yè)洞見。聚集25萬AI應(yīng)用開發(fā)者、算法工程師和研究人員。一線作者均來自清北、國外頂級(jí)AI實(shí)驗(yàn)室和互聯(lián)網(wǎng)大廠，兼?zhèn)涿襟wsense與技術(shù)深度。

閱讀原文