AIGC動態歡迎閱讀
原標題:HuggingFace燒錢做了一大批實驗,揭示多模態大模型哪些trick真正有效
關鍵字:模型,圖像,視覺,性能,文本
文章來源:夕小瑤科技說
內容字數:11000字
內容摘要:
夕小瑤科技說 原創作者 | 謝年年構建多模態大模型時有很多有效的trick,如采用交叉注意力機制融合圖像信息到語言模型中,或直接將圖像隱藏狀態序列與文本嵌入序列結合輸入至語言模型。
但是這些trick為什么有效,其計算效率如何,往往解釋得很粗略或者或者缺乏充分的實驗驗證。
Hugging Face團隊最近進行了廣泛的實驗以驗證在構建多模態大模型時哪些trick是真正有效的,得出了一系列極具參考價值的結論,甚至了以往文獻中普遍使用的觀點。
基于這些驗證過的有效trick,團隊開源了一個8B參數的視覺大模型——Idefics2,它在同等大小模型中是最能打的,其性能在某些基準測試中甚至超越了比它大4倍的模型,足以與閉源模型Gemini 1.5 Pro相媲美。
除此之外,還對Idefics2做了專門的對話訓練,在與用戶交互時也表現得相當出色。
比如分析表中數據并進行正確的計算:
在簡歷中找到所需的信息,并將其組織為JSON格式:
解讀表情包也像模像樣:
這個表情包描繪了一個穿著黃色雨衣的年輕女孩,她似乎正在穿過一片草地。她手里拿著一個黃色的東西,可能是一個玩具或一件設備。這張照片的背景是一
原文鏈接:HuggingFace燒錢做了一大批實驗,揭示多模態大模型哪些trick真正有效
聯系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡介:專業、有趣、深度價值導向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內外機構投資人,互聯網大廠中高管和AI公司創始人。一線作者來自清北、國內外頂級AI實驗室和大廠,兼備敏銳的行業嗅覺和洞察深度。商務合作:zym5189