AIGC動態歡迎閱讀
原標題:規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B
文章來源:機器之心
內容字數:3607字
內容摘要:機器之心報道機器之心編輯部性能優于規模更大的模型。多模態學習面臨的主要挑戰之一是需要融合文本、音頻、視頻等異構的模態,多模態模型需要組合不同來源的信號。然而,這些模態具有不同的特征,很難通過單一模型來組合。例如,視頻和文本具有不同的采樣率。最近,來自 Google DeepMind 的研究團隊將多模態模型解耦成多個的、專門的自回歸模型,根據各種模態的特征來處理輸入。具體來說,該研究提出了多模態模型 Mirasol3B。Mirasol3B 由時間同步模態(音頻和視頻)自回歸組件,以及用于上下文模態的自回歸組件組成。這些模態不一定在時間上對齊,但是按順序排列的。論文地址:https://arxiv.org/abs/2311.05698Mirasol3B 在多模態基準測試中達到了 SOTA 水平,優于規模更大的模型。通過學習更緊湊的表征,控制音頻 – 視頻特征表征的序列長度,并根據時間對應關…
原文鏈接:點此閱讀原文:規模小、效率高:DeepMind推出多模態解決方案Mirasol 3B
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...