上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升

AIGC動態1年前 (2024)發布量子位

AIGC動態歡迎閱讀

原標題：上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升
關鍵字：文本,圖像,騰訊,位置,能力
文章來源：量子位
內容字數：3954字

內容摘要：

白交發自凹非寺量子位 | 公眾號 QbitAICLIP長文本能力被解鎖，圖像檢索任務表現顯著提升！
一些關鍵細節也能被捕捉到。上海交大聯合上海AI實驗室提出新框架Long-CLIP。
△棕色文本為區分兩張圖的關鍵細節Long-CLIP在保持CLIP原始特征空間的基礎上，在圖像生成等下游任務中即插即用，實現長文本細粒度圖像生成——
長文本-圖像檢索提升20%，短文本-圖像檢索提升6%。
解鎖CLIP長文本能力CLIP對齊了視覺與文本模態，擁有強大的zero-shot泛化能力。因此，CLIP被廣泛應用在各種多模態任務中，如圖像分類、文本圖像檢索、圖像生成等。
但CLIP的一大弊病是在于長文本能力的缺失。
首先，由于采用了絕對位置編碼，CLIP的文本輸入長度被限制在了77個token。不僅如此，實驗發現CLIP真正的有效長度甚至不足20個token，遠遠不足以表征細粒度信息。
文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本，CLIP的視覺編碼器也只會提取一張圖片中最主要的成分，而忽略了各種細節。這對跨模態檢索等細粒度任務是十分不利的。
同時，長文本的缺乏也使CLIP采取了類似b

原文鏈接：上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升

聯系作者

文章來源：量子位
作者微信：QbitAI
作者簡介：追蹤人工智能新趨勢，關注科技行業新突破

閱讀原文

# AIGC動態 # 位置 # 圖像 # 文本 # 能力 # 騰訊

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升

AIGC動態歡迎閱讀

內容摘要：

聯系作者

芯片戰爭早已打響！谷歌15個月打造首個TPU，欲和老黃平起平坐

楊立昆教授在哈佛大學數學系演講稿-關于人工智能世界新模型

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升

AIGC動態歡迎閱讀

內容摘要：

聯系作者

芯片戰爭早已打響！谷歌15個月打造首個TPU，欲和老黃平起平坐

楊立昆教授在哈佛大學數學系演講稿-關于人工智能世界新模型

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

上海交大新框架解鎖CLIP長文本能力，多模態生成細節拿捏，圖像檢索能力顯著提升

芯片戰爭早已打響！谷歌15個月打造首個TPU，欲和老黃平起平坐