AIGC動態歡迎閱讀
原標題:太全了!蘋果上新視覺模型4M-21,搞定21種模態
關鍵字:模型,任務,數據,語義,本文
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:陳萍、小舟當前的多模態和多任務基礎模型,如 4M 或 UnifiedIO,顯示出有希望的結果。然而,它們接受不同輸入和執行不同任務的開箱即用能力,受到它們接受訓練的模態和任務的數量(通常很少)的限制。
基于此,來自洛桑聯邦理工學院(EPFL)和蘋果的研究者聯合開發了一個任意到任意模態單一模型,該模型在數十種高度多樣化的模態上進行訓練,并對大規模多模態數據集和文本語料庫進行協同訓練。
訓練過程中一個關鍵步驟是對各種模態執行離散 tokenization,無論它們是類似圖像的神經網絡特征圖、向量、實例分割或人體姿態等結構化數據,還是可以表征為文本的數據。論文地址:https://arxiv.org/pdf/2406.09406
論文主頁 https://4m.epfl.ch/
論文標題:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities
該研究展示了訓練單一模型,也能完成現有模型至少 3 倍多的任務 / 模態,并且不會損失性能。此外,該研究還實現了更細粒度和更可控的多模態生成能力。
該研究
原文鏈接:太全了!蘋果上新視覺模型4M-21,搞定21種模態
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...