<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升

        AIGC動態1年前 (2024)發布 量子位
        423 0 0

        上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升

        AIGC動態歡迎閱讀

        原標題:上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升
        關鍵字:文本,圖像,騰訊,位置,能力
        文章來源:量子位
        內容字數:3954字

        內容摘要:


        白交 發自 凹非寺量子位 | 公眾號 QbitAICLIP長文本能力被解鎖,圖像檢索任務表現顯著提升!
        一些關鍵細節也能被捕捉到。上海交大聯合上海AI實驗室提出新框架Long-CLIP。
        △棕色文本為區分兩張圖的關鍵細節Long-CLIP在保持CLIP原始特征空間的基礎上,在圖像生成等下游任務中即插即用,實現長文本細粒度圖像生成——
        長文本-圖像檢索提升20%,短文本-圖像檢索提升6%。
        解鎖CLIP長文本能力CLIP對齊了視覺與文本模態,擁有強大的zero-shot泛化能力。因此,CLIP被廣泛應用在各種多模態任務中,如圖像分類、文本圖像檢索、圖像生成等。
        但CLIP的一大弊病是在于長文本能力的缺失。
        首先,由于采用了絕對位置編碼,CLIP的文本輸入長度被限制在了77個token。不僅如此,實驗發現CLIP真正的有效長度甚至不足20個token,遠遠不足以表征細粒度信息。
        文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本,CLIP的視覺編碼器也只會提取一張圖片中最主要的成分,而忽略了各種細節。這對跨模態檢索等細粒度任務是十分不利的。
        同時,長文本的缺乏也使CLIP采取了類似b


        原文鏈接:上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升

        聯系作者

        文章來源:量子位
        作者微信:QbitAI
        作者簡介:追蹤人工智能新趨勢,關注科技行業新突破

        閱讀原文
        ? 版權聲明
        Trae官網

        相關文章

        Trae官網

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久9久9精品免费观看| 黄色永久免费网站| 亚洲精品中文字幕乱码影院| 成人免费毛片观看| 精品久久久久久国产免费了| 中文字幕亚洲色图| 免费v片在线观看| 男的把j放进女人下面视频免费| 国产成人精品亚洲日本在线 | 成人免费无遮挡无码黄漫视频| 成年网站免费入口在线观看| 亚洲一区中文字幕久久| 日本一道一区二区免费看| 国产激情免费视频在线观看| 亚洲爆乳成av人在线视菜奈实 | 亚洲AV无码无限在线观看不卡| 亚洲成a人无码av波多野按摩| 18女人水真多免费高清毛片| 阿v视频免费在线观看| 亚洲第一香蕉视频| 国产国拍亚洲精品福利| 永久免费av无码不卡在线观看 | 亚洲成在人线aⅴ免费毛片| a级成人免费毛片完整版| 亚洲成AV人影片在线观看| 久久亚洲精品成人| 亚洲精品无码专区2| AV免费网址在线观看| 久久精品成人免费观看| 男女猛烈激情xx00免费视频 | 无码午夜成人1000部免费视频| 特级毛片aaaa级毛片免费| 亚洲国产av高清无码| 亚洲AV午夜成人片| 久久激情亚洲精品无码?V| 免费看AV毛片一区二区三区| 黄页免费的网站勿入免费直接进入| 182tv免费视频在线观看| 一级毛片完整版免费播放一区| 亚洲精品第一国产综合亚AV| 91亚洲性爱在线视频|