AIGC動態歡迎閱讀
原標題:0微調搞定160個測試集!最強多模態分割一切大模型來了,架構參數全開源
文章來源:量子位
內容字數:6115字
內容摘要:Brady 投稿量子位 | 公眾號 QbitAI用多模態大模型來做語義分割,效果有多好?一張圖+文字輸入想分割的物體,大模型幾秒鐘就能識別并搞定!只需輸入想分割的對象如“擎天柱”,單個目標立刻就能被精準識別、快速切割:多個物體也是手到擒來,像是指定天空、水、樹、草、女孩、龍貓(Chinchilla),同樣能火速分割:表情包也沒問題:這是來自廈門大學等機構的最新多模態基礎感知大模型,一上來就在160個測試集上達成了SOTA或持平近似的結果,沒有針對任何下游任務進行微調。目前,模型架構和參數已經全部開源,一起來看看這是怎么實現的。多模態大模型APE長啥樣?此前,視覺基礎模型(Vision Foundation Models)方向一直在探索建立一個通用的視覺感知系統。已有的方法可以分為三類,但都有一些不足之處:第一類采用自監督的訓練方式,例如DINO和CLIP等,這類方法在做下游感知類任務的時候…
原文鏈接:點此閱讀原文:0微調搞定160個測試集!最強多模態分割一切大模型來了,架構參數全開源
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...