AIGC動態歡迎閱讀
原標題:一套參數,狂攬160個SOTA!廈大等重磅開源「視覺感知基礎模型」APE
文章來源:新智元
內容字數:10970字
內容摘要:新智元報道編輯:LRS 好困【新智元導讀】由廈門大學等機構提出的全新視覺感知基礎模型APE,只需一個模型外加一套參數,就能在160個測試集上取得當前SOTA或極具競爭力的結果。而且訓練和推理代碼以及模型權重全部開源,無需微調,開箱即用。最近,來自廈門大學等機構的研究人員提出一種新的視覺感知基礎模型APE——可以一次性對圖像中的所有前背景區域、物體和部件進行高效圖文對齊訓練和查詢提示推理,并輸出目標檢測、圖像分割和視覺定位的結果。為了增強APE在現實世界場景中的實用性,研究人員從三個方面構建重要能力:1. 任務泛化:APE基于DETR框架構建,可執行廣泛的語義理解任務,能夠預測任何物體、區域和部件的標簽、包圍框和分割掩模。具體而言,研究人員將常見和長尾詞匯的目標檢測、各種粒度的圖像分割和視覺定位統一到一個實例級檢測transformer框架中。2. 數據多樣性:APE同時在廣泛的數據源上進行…
原文鏈接:點此閱讀原文:一套參數,狂攬160個SOTA!廈大等重磅開源「視覺感知基礎模型」APE
聯系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...