字節多模態大模型PixelLM：高效像素級推理，無需依賴SAM

AIGC動態2年前 (2023)發布量子位

AIGC動態歡迎閱讀

原標題：字節多模態大模型PixelLM：高效像素級推理，無需依賴SAM
關鍵字：模型,字節跳動,目標,數據,圖像
文章來源：量子位
內容字數：5403字

內容摘要：

夢晨發自凹非寺量子位 | 公眾號 QbitAI多模態大模型爆發，準備好進入圖像編輯、自動駕駛和機器人技術等細粒度任務中實際應用了嗎？
目前大多數模型的能力還是局限于生成對整體圖像或特定區域的文本描述，在像素級理解方面的能力（例如物體分割）相對有限。
針對這個問題，一些工作開始探索借助多模態大模型來處理用戶的分割指令（例如，“請分割出圖片中富含維生素C的水果”）。
然而，市面上的方法都存在兩個主要缺點：
1)無法處理涉及多個目標對象的任務，而這在現實世界場景中是不可或缺的；
2)依賴于像SAM這樣的預訓練圖像分割模型，而SAM的一次前向傳播需要的計算量已經足夠 Llama-7B產生500多個token了。
為了解決此問題，字節跳動智能創作團隊聯合北京交通大學、北京科技大學的研究人員提出了首個無需依賴SAM的高效像素級推理大模型PixelLM。
在具體介紹它之前，先來體驗幾組PixelLM實際分割的效果：
相比之前的工作，PixelLM的優勢在于：
能夠熟練處理任意數量的開放域目標和多樣化的復雜推理分割任務。
避免了額外的、成本高昂的分割模型，提升了效率和對不同應用的遷移能力。
進一步

原文鏈接：字節多模態大模型PixelLM：高效像素級推理，無需依賴SAM