AIGC動態歡迎閱讀
原標題:多模態大模型有了統一分割框架,華科PSALM多任務登頂,模型代碼全開源
關鍵字:任務,模型,提示,全景,圖像
文章來源:機器之心
內容字數:4814字
內容摘要:
機器之心專欄
機器之心編輯部最近,多模態大模型(LMM)取得了一系列引人注目的成就,特別是在視覺 – 語言任務上的表現令人矚目。它們的成功不僅展現了多模態大模型在各個領域的實用性和靈活性,也為更多視覺場景下的應用探索了新的道路。
盡管如此,在將 LMM 應用到計算機視覺任務上時,我們仍面臨一個關鍵挑戰:大多數 LMM 目前只限于文本輸出,這限制了它們在處理更細粒度的視覺任務,如圖像分割方面的能力。
此外,圖像分割領域內部的需求多樣化,任務各異 —— 實例分割需為每個對象分配唯一 ID 并計算類別信賴度,指代分割(RES)則需要基于描述性語句來識別圖像中的特定區域,而交互式分割的輸入可能包括點、線、邊界框或掩碼。這些不同的輸入和輸出格式如何能夠被 LMM 高效地統一和處理,目前仍然是一個開放性問題。華中科技大學的研究團隊針對多模態大模型(LMM)在視覺任務中的應用挑戰,推出了針對性的解決方案:PSALM 模型。這一模型的設計理念是:通過一個統一的框架處理絕大多數類型的圖像分割任務,從而實現分割任務的全面覆蓋。
同時,得益于多模態大模型廣泛的預訓練,PSALM 不僅在已見分割任務上表現出色
原文鏈接:多模態大模型有了統一分割框架,華科PSALM多任務登頂,模型代碼全開源
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...