<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果

        AIGC動態11個月前發布 機器之心
        453 0 0

        字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果

        AIGC動態歡迎閱讀

        原標題:字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果
        關鍵字:字節跳動,模型,文本,圖片,豆包
        文章來源:機器之心
        內容字數:0字

        內容摘要:


        AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com當前主流的視覺語言模型(VLM)主要基于大語言模型(LLM)進一步微調。因此需要通過各種方式將圖像映射到 LLM 的嵌入空間,然后使用自回歸方式根據圖像 token 預測答案。
        在這個過程中,模態的對齊是通過文本 token 隱式實現的,如何做好這一步的對齊非常關鍵。
        針對這一問題,大學、字節跳動豆包大模型團隊和中國科學院大學的研究人員提出了一種基于對比學習的文本 token 篩選方法(CAL),從文本中篩選出與圖像高度相關的 token,并加大其損失函數權重,從而實現更精準的多模態對齊。論文鏈接:https://arxiv.org/pdf/2405.17871
        代碼鏈接:https://github.com/foundation-multimodal-m


        原文鏈接:字節豆包、武大提出 CAL:通過視覺相關的 token 增強多模態對齊效果

        聯系作者

        文章來源:機器之心
        作者微信:almosthuman2014
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲中文字幕乱码AV波多JI| 亚洲AV无码国产精品麻豆天美| 亚洲一区二区三区免费在线观看| 亚洲线精品一区二区三区影音先锋| 免费无码AV一区二区| 亚洲精品国自产拍在线观看| 亚洲人成影院在线| 久久aⅴ免费观看| 亚洲福利一区二区| 在线视频免费观看高清| 亚洲国产欧美国产综合一区 | AV片在线观看免费| 亚洲免费福利在线视频| 狠狠久久永久免费观看| 一区二区三区免费精品视频 | 男女做羞羞的事视频免费观看无遮挡| 亚洲手机中文字幕| 精品免费国产一区二区三区| 日本在线观看免费高清| 国产亚洲AV夜间福利香蕉149| 最好免费观看高清在线 | 亚洲精品无码Av人在线观看国产| a级毛片无码免费真人久久| 亚洲自偷自拍另类12p| 成熟女人特级毛片www免费| 黄色一级视频免费观看| 国产v亚洲v天堂无码网站| 日韩免费一区二区三区在线播放| 亚洲AV成人无码网天堂| 亚洲女久久久噜噜噜熟女| www.免费在线观看| 国产精品成人亚洲| 亚洲国产精久久久久久久| 午夜免费不卡毛片完整版| 中文字幕免费在线看线人动作大片 | 黄页网站在线观看免费高清| 亚洲AV成人精品一区二区三区| 亚洲av永久无码精品国产精品| 成人无遮挡裸免费视频在线观看| 四虎国产精品成人免费久久| 久久精品国产亚洲AV无码娇色|