字節(jié)多模態(tài)大模型PixelLM:高效像素級推理,無需依賴SAM
AIGC動態(tài)歡迎閱讀
原標題:字節(jié)多模態(tài)大模型PixelLM:高效像素級推理,無需依賴SAM
關鍵字:模型,字節(jié)跳動,目標,數據,圖像
文章來源:量子位
內容字數:5403字
內容摘要:
夢晨 發(fā)自 凹非寺量子位 | 公眾號 QbitAI多模態(tài)大模型爆發(fā),準備好進入圖像編輯、自動駕駛和機器人技術等細粒度任務中實際應用了嗎?
目前大多數模型的能力還是局限于生成對整體圖像或特定區(qū)域的文本描述,在像素級理解方面的能力(例如物體分割)相對有限。
針對這個問題,一些工作開始探索借助多模態(tài)大模型來處理用戶的分割指令(例如,“請分割出圖片中富含維生素C的水果”)。
然而,市面上的方法都存在兩個主要缺點:
1)無法處理涉及多個目標對象的任務,而這在現(xiàn)實世界場景中是不可或缺的;
2)依賴于像SAM這樣的預訓練圖像分割模型,而SAM的一次前向傳播需要的計算量已經足夠 Llama-7B產生500多個token了。
為了解決此問題,字節(jié)跳動智能創(chuàng)作團隊聯(lián)合北京交通大學、北京科技大學的研究人員提出了首個無需依賴SAM的高效像素級推理大模型PixelLM。
在具體介紹它之前,先來體驗幾組PixelLM實際分割的效果:
相比之前的工作,PixelLM的優(yōu)勢在于:
能夠熟練處理任意數量的開放域目標和多樣化的復雜推理分割任務。
避免了額外的、成本高昂的分割模型,提升了效率和對不同應用的遷移能力。
進一步
原文鏈接:字節(jié)多模態(tài)大模型PixelLM:高效像素級推理,無需依賴SAM
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...