Llama 4 – Meta 推出的多模態系列模型
Llama 4 是由 Meta 開發的多模態人工智能模型,采用創新的混合專家(MoE)架構,提升了計算和推理的效率。該模型目前有兩種版本:Scout 和 Maverick。Scout 版本包含 170 億個活躍參數和 1090 億個總參數,能夠支持 1000 萬個上下文并處理超過 20 小時的視頻,運行在單個 H100 GPU 上,表現超越了 Gemma 3 等其他模型。Maverick 版本同樣有 170 億個活躍參數,但配備了 128 個“專家”模型,總參數達到 4000 億,在圖像理解和創意寫作領域表現尤為突出,適合用于多種智能助手和對話應用。此外,Llama 4 Behemoth 仍在訓練中,預計將擁有 2 萬億參數,已在 STEM 基準測試中展現了優異的性能。
Llama 4是什么
Llama 4 是 Meta 推出的先進多模態人工智能模型,首次引入混合專家(MoE)架構,顯著提高了訓練和推理的效率。該模型分為 Scout 和 Maverick 兩個版本。Scout 版本具有 170 億個活躍參數和 1090 億個總參數,支持 1000 萬個上下文窗口,能夠處理長達 20 小時的視頻,并且能夠在單個 H100 GPU 上高效運行,性能超越了 Gemma 3 等競爭模型。Maverick 版本同樣擁有 170 億個活躍參數,配備 128 個“專家”模型,總參數達到 4000 億,專注于圖像理解和創意寫作,適合用作通用助手和類應用,在大模型 LMSYS 排行榜中名列前茅。Llama 4 Behemoth 是一個仍在開發中的預覽版本,預計將擁有 2 萬億參數,并在 STEM 基準測試中表現出色。Llama 4 支持在 200 種語言上進行開源微調,其訓練數據超過 30 萬億個 token。
Llama 4的主要功能
- 卓越的語言理解與生成能力:經過大量文本數據的訓練,Llama 4 在語言理解上表現精準,能夠生成邏輯連貫的文本,適用于創意寫作、文章撰寫及對話交互。例如,在故事創作中,能基于給定的主題和情節線索生成生動的故事內容;在對話中,能準確理解用戶意圖并提供合適的回復。
- 多模態處理能力:通過圖像數據的訓練,模型具備圖像理解能力,能識別圖像中的物體、場景及顏色等元素,并對圖像內容進行準確描述和分析。Scout 版本支持 1000 萬 tokens 的上下文窗口,適合處理長文本總結、基于大型代碼庫的推理等任務。
- 高效的推理與計算能力:采用混合專家(MoE)架構,使模型分為多個專注于特定任務的“專家”子模型,從而提高訓練和查詢響應的效率,降低了模型的服務成本和延遲。
- 多語言處理能力:通過在 200 種語言上的預訓練,Llama 4 能處理和生成多種語言文本,支持跨語言的交流與任務處理,如語言翻譯和文本分析,幫助用戶消除語言障礙。
Llama 4的技術原理
- 混合專家(MoE)架構:Llama 4 是 Llama 系列中首個采用 MoE 架構的模型。在 MoE 模型中,每個 token 僅激活一小部分參數。例如,Maverick 模型擁有 4000 億個總參數,但只有 170 億個是活躍的。Meta 通過交替使用稠密層和 MoE 層,確保每個 token 被送至共享專家和 128 個路由專家中的一個,從而在運行模型時僅激活部分參數,提升推理效率,降低服務成本和延遲。
- 原生多模態設計:Llama 4 是一個原生多模態模型,采用早期融合技術,能夠將文本與視覺 token 無縫整合在統一的模型框架中。它可以利用海量的無標簽文本、圖像和視頻數據進行預訓練。Meta 對 Llama 4 的視覺編碼器進行了升級,編碼器基于 MetaCLIP,訓練時與固定的 Llama 模型分開,能夠更好地調整編碼器以適應大語言模型(LLM)。
- 模型超參數優化:Meta 研發了 MetaP 新訓練方法,能夠有效設置關鍵的模型超參數,例如每層的學習率和初始化規模,這些超參數在不同的批大小、模型寬度、深度及訓練 token 量上均能良好適配。
- 高效的模型訓練:使用 FP8 精度進行訓練,確保不損失質量的同時提升模型的 FLOPs 利用率。例如,在使用 FP8 精度和 32K 個 GPU 預訓練 Llama 4 Behemoth 模型時,能夠實現每個 GPU 390 TFLOPs 的性能。訓練數據涵蓋超過 30 萬億個 token,包括文本、圖像和視頻數據集。通過“中期訓練”方式持續訓練模型,擴展長上下文,提升核心能力,使 Llama 4 Scout 能夠解鎖 1000 萬輸入上下文長度的領先性能。
- 后訓練流程優化:訓練流程包含輕量級監督微調(SFT)、在線強化學習(RL)及輕量級直接偏好優化(DPO)。為避免 SFT 和 DPO 對模型的過度限制,Meta 利用 Llama 模型作為評判者,剔除超過 50% 被標記為“簡單”的數據,對剩余的困難數據進行輕量級 SFT,并在多模態在線 RL 階段精心選擇更具挑戰性的提示,實施持續在線 RL 策略,交替進行模型訓練與數據篩選,保留中等到高難度的提示,最后進行輕量級 DPO,以平衡模型的智能性與對話能力。
Llama 4的項目地址
- 項目官網:https://ai.meta.com/blog/llama-4
- HuggingFace模型庫:https://huggingface.co/collections/meta-llama/llama-4
Llama 4的應用場景
- 對話系統:Llama 4 可用于開發智能機器人,特別是 Maverick 適合用作通用 AI 助手和應用,能夠理解用戶的問題并生成自然流暢的回答,提供信息、解答疑問或進行閑聊。
- 文本生成:具備創意寫作能力,能夠創作故事、詩歌和劇本等,也可用于撰寫新聞報道、產品說明和文案策劃,根據特定主題和要求生成高質量的文本。
- 代碼生成與輔助:能夠幫助開發者生成代碼,基于功能描述提供相應的代碼片段或完整程序,并提供代碼解釋、注釋生成和代碼規范檢查等輔助功能,提升開發效率。
- 代碼理解與分析:Scout 可基于大型代碼庫進行推理,協助開發者理解復雜代碼的邏輯與功能,進行代碼審查和漏洞檢測等工作。
- 圖像理解與描述:Maverick 在圖像精準理解方面表現出色,能夠識別圖像中的物體、場景及顏色,對圖像內容進行描述和分析,例如輸入一張照片,可以對照片內容進行詳細描述和判斷拍攝地點。
- 信息檢索與推薦:結合其語言理解與生成能力,能夠用于信息檢索系統,理解用戶的查詢意圖,提供更精準的搜索結果,并基于用戶的興趣和行為進行個性化推薦。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...