字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強多模態(tài)對齊效果
AIGC動態(tài)歡迎閱讀
原標題:字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強多模態(tài)對齊效果
關(guān)鍵字:字節(jié)跳動,模型,文本,圖片,豆包
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
AIxiv專欄是機器之心發(fā)布學術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com當前主流的視覺語言模型(VLM)主要基于大語言模型(LLM)進一步微調(diào)。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間,然后使用自回歸方式根據(jù)圖像 token 預測答案。
在這個過程中,模態(tài)的對齊是通過文本 token 隱式實現(xiàn)的,如何做好這一步的對齊非常關(guān)鍵。
針對這一問題,大學、字節(jié)跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種基于對比學習的文本 token 篩選方法(CAL),從文本中篩選出與圖像高度相關(guān)的 token,并加大其損失函數(shù)權(quán)重,從而實現(xiàn)更精準的多模態(tài)對齊。論文鏈接:https://arxiv.org/pdf/2405.17871
代碼鏈接:https://github.com/foundation-multimodal-m
原文鏈接:字節(jié)豆包、武大提出 CAL:通過視覺相關(guān)的 token 增強多模態(tài)對齊效果
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺