AIGC動態歡迎閱讀
原標題:如何從零訓練多模態大模型(預訓練方向)
關鍵字:知乎,侵權,數據,階段,指令
文章來源:智猩猩GenAI
內容字數:0字
內容摘要:
開講預約導讀原文來自知乎,作者為HelloWorld,標題為《LLaVA(六)訓練你自己的多模態模型》。作者詳細介紹了如何從零訓練LLaVA v1.5多模態模型,包括特征對齊和視覺指令微調兩個階段的訓練流程、數據準備、啟動腳本及相關注意事項。原文地址:https://zhuanlan.zhihu.com/p/718354385
本文只做學術/技術分享,如有侵權,聯系刪文。本文參考官方教程[1]介紹如何訓練 LLaVA v1.5 多模態模型。LLaVA 訓練包括特征對齊階段(feature alignment stage)和視覺指令微調階段(visual instruction tuning stage),其中特征對齊階段使用 LAION-CC-SBU 數據集的 558K 子集(記為 LLaVA-Pretrain),目的是訓練 MLP connector(或稱為 projector),而視覺指令微調階段使用 GPT-4 生成的 150K 條多模態指令跟隨數據和來自學術任務的 515K 條 VQA 數據引導 LLaVA 模型遵從多模態指令。
官方給出的 LLaVA v1.5 使用了 8 個
原文鏈接:如何從零訓練多模態大模型(預訓練方向)
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...