AIGC動態歡迎閱讀
原標題:上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升
關鍵字:文本,圖像,騰訊,位置,能力
文章來源:量子位
內容字數:3954字
內容摘要:
白交 發自 凹非寺量子位 | 公眾號 QbitAICLIP長文本能力被解鎖,圖像檢索任務表現顯著提升!
一些關鍵細節也能被捕捉到。上海交大聯合上海AI實驗室提出新框架Long-CLIP。
△棕色文本為區分兩張圖的關鍵細節Long-CLIP在保持CLIP原始特征空間的基礎上,在圖像生成等下游任務中即插即用,實現長文本細粒度圖像生成——
長文本-圖像檢索提升20%,短文本-圖像檢索提升6%。
解鎖CLIP長文本能力CLIP對齊了視覺與文本模態,擁有強大的zero-shot泛化能力。因此,CLIP被廣泛應用在各種多模態任務中,如圖像分類、文本圖像檢索、圖像生成等。
但CLIP的一大弊病是在于長文本能力的缺失。
首先,由于采用了絕對位置編碼,CLIP的文本輸入長度被限制在了77個token。不僅如此,實驗發現CLIP真正的有效長度甚至不足20個token,遠遠不足以表征細粒度信息。
文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本,CLIP的視覺編碼器也只會提取一張圖片中最主要的成分,而忽略了各種細節。這對跨模態檢索等細粒度任務是十分不利的。
同時,長文本的缺乏也使CLIP采取了類似b
原文鏈接:上海交大新框架解鎖CLIP長文本能力,多模態生成細節拿捏,圖像檢索能力顯著提升
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...