在多模態大模型的訓練中,也能顯著提升復雜視覺推理的表現。
LLM2CLIP:多模態領域的創新突破
在當今多模態領域,CLIP 模型以其卓越的視覺與文本對齊能力推動了視覺基礎模型的發展。盡管 CLIP 通過對大規模圖文對的對比學習取得了一定的成功,但在處理長文本和復雜描述方面仍然存在顯著限制。為了解決這一問題,來自同濟大學和微軟的研究團隊提出了 LLM2CLIP,將大語言模型(LLM)作為 CLIP 的強力“私教”,顯著提升 CLIP 的多模態表示學習能力。
1. LLM2CLIP 的背景和意義
CLIP 模型的成功標志著視覺與語言領域的一次,其采用圖文對的對比學習,使視覺特征更加豐富。然而,CLIP 在處理復雜文本時的能力有限,而大語言模型(如 GPT-4)具備更強的文本理解與生成能力。將 LLM 的能力引入 CLIP,能夠極大拓寬其性能上限。
2. LLM2CLIP 的核心創新
研究團隊設計了一種新的圖像描述對比微調方法——Caption-Contrastive(CC)finetuning,通過標注每張圖像多個描述并進行對比學習,以提升 LLM 對于不同圖像描述的區分度。實驗結果顯示,該方法顯著提高了圖像描述檢索的準確率,使得 LLM 能有效支持 CLIP 的表示學習。
3. LLM2CLIP 的實際應用效果
LLM2CLIP 在實際應用中表現優異,尤其在零樣本檢索任務上獲得了前所未有的性能提升。盡管 LLM2CLIP 僅在英文數據上進行訓練,卻在中文圖文檢索任務中超越了中文 CLIP 模型,同時也顯著提升了多模態大模型 LLaVA 在復雜視覺推理任務中的表現。
4. 未來展望
LLM2CLIP 的目標是推動大模型的能力反哺多模態社區,并為基礎模型的預訓練方法帶來新的突破。研究團隊希望通過 LLM2CLIP 技術,使現有的預訓練基礎模型更加強大,并逐步發布經過微調的主流跨模態基礎模型,為更多應用場景提供高效工具。
總之,LLM2CLIP 的推出為視覺與語言的結合提供了新的可能性,極大地推動了多模態研究的發展。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺