Finedefics – 北大團隊推出的細粒度多模態大模型
Finedefics 是由北京大學彭宇新教授團隊研發的一款先進的細粒度多模態大模型,旨在提升多模態大語言模型(MLLMs)在細粒度視覺識別(FGVR)任務中的性能。該模型通過引入對象的細粒度屬性描述,并利用對比學習來對齊視覺對象與類別名稱的表示,成功解決了傳統模型在視覺對象與細粒度子類別之間的對齊問題。
Finedefics是什么
Finedefics 是北京大學彭宇新教授團隊推出的一個細粒度多模態大模型,專注于改善多模態大語言模型(MLLMs)在細粒度視覺識別(FGVR)任務中的能力。該模型通過細致的屬性描述,以及對比學習技術,精準對齊視覺對象與其對應的類別名稱,克服了傳統模型在此方面的不足。
Finedefics的主要功能
- 提升細粒度視覺識別能力:Finedefics 通過整合細粒度屬性描述,采用對比學習方法有效對齊視覺對象與類別名稱,解決了以往模型中存在的對齊問題。
- 數據與知識的協同訓練:該模型通過促使大語言模型構建視覺對象的細粒度屬性知識,實現了數據與知識的有效對齊和協同訓練。
- 卓越的性能表現:在多個權威的細粒度圖像分類數據集(如 Stanford Dog-120、Bird-200、FGVC-Aircraft 等)上,Finedefics 的平均準確率達到 76.84%,顯著超越了其他同類模型。
- 屬性描述的構建與對齊:Finedefics 通過分析細粒度子類別的關鍵特征(如毛色、毛型等),將這些特征轉化為自然語言描述,并利用這些描述在大語言模型中對齊視覺對象與類別名稱。
Finedefics的技術原理
- 屬性描述構建:Finedefics 首先挖掘細粒度子類別的關鍵特征,如毛色、毛型、毛皮質地等,這些特征被整理為視覺對象的屬性對(例如“毛色:棕褐色”),并以自然語言形式描述(如“圖中小貓的毛發為棕褐色,帶有斑紋,質地柔軟”)。
- 屬性增強對齊:通過屬性增強對齊,Finedefics 將構建的對象屬性描述作為視覺對象與細粒度子類別的共同對齊目標,利用對比學習方法建立視覺對象與細粒度子類別間的聯系。
- 對比學習與指令微調:在訓練過程中,Finedefics 結合對比學習,將視覺對象、屬性描述與類別名稱的全局表示輸入大語言模型,并通過引入困難負樣本優化對齊效果。同時,通過指令微調進一步提升其在細粒度視覺識別任務中的表現。
Finedefics的官網
- Github倉庫:訪問Github
- HuggingFace模型庫:訪問HuggingFace
- arXiv技術論文:閱讀技術論文
Finedefics的應用場景
- 生物多樣性監測:Finedefics 可以用于自動識別和分類生物物種,如不同種類的鳥類、植物或動物,以助于生態研究。
- 智能交通:在交通領域,Finedefics 可用于車輛的識別和分類,如區分不同品牌或型號的汽車,甚至同品牌下的不同車型。
- 智能零售:Finedefics 可應用于零售場景,幫助識別和分類商品,提升庫存管理、商品推薦及自動結賬系統的效率。
- 工業檢測與質量控制:在工業生產中,Finedefics 能夠有效檢測和分類零部件或產品的細微差異,如識別不同型號的機械部件或監測產品質量。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...