HuggingFace燒錢做了一大批實(shí)驗(yàn),揭示多模態(tài)大模型哪些trick真正有效

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:HuggingFace燒錢做了一大批實(shí)驗(yàn),揭示多模態(tài)大模型哪些trick真正有效
關(guān)鍵字:模型,圖像,視覺,性能,文本
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):11000字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 謝年年構(gòu)建多模態(tài)大模型時(shí)有很多有效的trick,如采用交叉注意力機(jī)制融合圖像信息到語言模型中,或直接將圖像隱藏狀態(tài)序列與文本嵌入序列結(jié)合輸入至語言模型。
但是這些trick為什么有效,其計(jì)算效率如何,往往解釋得很粗略或者或者缺乏充分的實(shí)驗(yàn)驗(yàn)證。
Hugging Face團(tuán)隊(duì)最近進(jìn)行了廣泛的實(shí)驗(yàn)以驗(yàn)證在構(gòu)建多模態(tài)大模型時(shí)哪些trick是真正有效的,得出了一系列極具參考價(jià)值的結(jié)論,甚至了以往文獻(xiàn)中普遍使用的觀點(diǎn)。
基于這些驗(yàn)證過的有效trick,團(tuán)隊(duì)開源了一個(gè)8B參數(shù)的視覺大模型——Idefics2,它在同等大小模型中是最能打的,其性能在某些基準(zhǔn)測(cè)試中甚至超越了比它大4倍的模型,足以與閉源模型Gemini 1.5 Pro相媲美。
除此之外,還對(duì)Idefics2做了專門的對(duì)話訓(xùn)練,在與用戶交互時(shí)也表現(xiàn)得相當(dāng)出色。
比如分析表中數(shù)據(jù)并進(jìn)行正確的計(jì)算:
在簡歷中找到所需的信息,并將其組織為JSON格式:
解讀表情包也像模像樣:
這個(gè)表情包描繪了一個(gè)穿著黃色雨衣的年輕女孩,她似乎正在穿過一片草地。她手里拿著一個(gè)黃色的東西,可能是一個(gè)玩具或一件設(shè)備。這張照片的背景是一
原文鏈接:HuggingFace燒錢做了一大批實(shí)驗(yàn),揭示多模態(tài)大模型哪些trick真正有效
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)