從零訓練一個多模態LLM：預訓練+指令微調+對齊+融合多模態+鏈接外部系統

AIGC動態1年前 (2024)發布智猩猩AGI

AIGC動態歡迎閱讀

原標題：從零訓練一個多模態LLM：預訓練+指令微調+對齊+融合多模態+鏈接外部系統
關鍵字：模型,數據,指令,任務,文本
文章來源：智猩猩AGI
內容字數：0字

內容摘要：

7月25日上午10點，中國科學技術大學與微軟亞洲研究院聯合培養博士生張博文將在智猩猩直播講解微軟亞洲研究院開源成果GaussianCube，主題為《結構化3DGS為高質量3D生成帶來新思路》。歡迎掃名~本文嘗試梳理一個完整的多模態LLM的訓練流程。包括模型結構選擇、數據預處理、模型預訓練、指令微調、對齊、融合多模態以及鏈接外部系統等環節。
01準備階段1 模型結構
目前主要有三種模型架構，基于Transformer解碼器，基于General Language Model，以及混合專家模型。這一步可以直接選擇開源的的基座模型，例如基于Transformer解碼器架構的LLaMA模型族，模型結構及一些重要參數如下圖。假設選擇LLaMA-65B，Tokenizer選擇LLaMA的基于BPE算法構造的tokenizer。如果想要擴展詞表，可以在目標語言上訓練好詞表后和LLaMA的詞表merge在一起。
02預訓練數據1 數據源
根據Chinchilla 的scaling law，要達到最優的計算利用率，65B模型對應的訓練token數量應該達到1.4T。當前用于訓練LLM的數據來源很多，但

原文鏈接：從零訓練一個多模態LLM：預訓練+指令微調+對齊+融合多模態+鏈接外部系統