多模態大模型不夠靈活，谷歌DeepMind創新架構Zipper：分開訓練再「壓縮」

AIGC動態歡迎閱讀

原標題：多模態大模型不夠靈活，谷歌DeepMind創新架構Zipper：分開訓練再「壓縮」
關鍵字：解碼器,模型,表征,骨干,文本
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：蛋醬最近的一系列研究表明，純解碼器生成模型可以通過訓練利用下一個 token 預測生成有用的表征，從而成功地生成多種模態（如音頻、圖像或狀態 – 動作序列）的新序列，從文本、蛋白質、音頻到圖像，甚至是狀態序列。
能夠同時生成多種模態輸出的多模態模型一般是通過某種形式的詞匯擴展（將多模態表征轉換為離散 token 并添加到模型的基本詞匯表中）來實現的，即在預訓練階段或在后期微調階段進行跨模態對齊。
多模態預訓練方法具有很強的性能優勢（例如，一個模型可以原生理解多種模態），但也有缺點。例如，無法解決如何在預訓練后添加新模態的問題，也缺乏靈活性，因為添加另一種模態需要從頭開始訓練一個新的模型，并進行超參數搜索，以獲得模態之間的最佳訓練數據混合比。因此，這種解決方案不適合小眾模態，特別是 IMU、蛋白質序列等。
或者，將詞匯擴展到另一種模態可以在一個從未見過該模態的模型上進行預訓練后進行。只在文本模態下訓練的解碼器模型可以在上下文中遵循指令并從樣本中學習，通常是通過微調將另一種模態（如音頻或圖像功能）嫁接到現有的強大文本骨干上，以利用文本模態的可表達性和人類用戶的可控性。這

原文鏈接：多模態大模型不夠靈活，谷歌DeepMind創新架構Zipper：分開訓練再「壓縮」