Llama 4

Llama 4 – Meta 推出的多模態系列模型

Llama 4

Llama 4 是由 Meta 開發的多模態人工智能模型，采用創新的混合專家（MoE）架構，提升了計算和推理的效率。該模型目前有兩種版本：Scout 和 Maverick。Scout 版本包含 170 億個活躍參數和 1090 億個總參數，能夠支持 1000 萬個上下文并處理超過 20 小時的視頻，運行在單個 H100 GPU 上，表現超越了 Gemma 3 等其他模型。Maverick 版本同樣有 170 億個活躍參數，但配備了 128 個“專家”模型，總參數達到 4000 億，在圖像理解和創意寫作領域表現尤為突出，適合用于多種智能助手和對話應用。此外，Llama 4 Behemoth 仍在訓練中，預計將擁有 2 萬億參數，已在 STEM 基準測試中展現了優異的性能。

Llama 4是什么

Llama 4 是 Meta 推出的先進多模態人工智能模型，首次引入混合專家（MoE）架構，顯著提高了訓練和推理的效率。該模型分為 Scout 和 Maverick 兩個版本。Scout 版本具有 170 億個活躍參數和 1090 億個總參數，支持 1000 萬個上下文窗口，能夠處理長達 20 小時的視頻，并且能夠在單個 H100 GPU 上高效運行，性能超越了 Gemma 3 等競爭模型。Maverick 版本同樣擁有 170 億個活躍參數，配備 128 個“專家”模型，總參數達到 4000 億，專注于圖像理解和創意寫作，適合用作通用助手和類應用，在大模型 LMSYS 排行榜中名列前茅。Llama 4 Behemoth 是一個仍在開發中的預覽版本，預計將擁有 2 萬億參數，并在 STEM 基準測試中表現出色。Llama 4 支持在 200 種語言上進行開源微調，其訓練數據超過 30 萬億個 token。

Llama 4的主要功能

卓越的語言理解與生成能力：經過大量文本數據的訓練，Llama 4 在語言理解上表現精準，能夠生成邏輯連貫的文本，適用于創意寫作、文章撰寫及對話交互。例如，在故事創作中，能基于給定的主題和情節線索生成生動的故事內容；在對話中，能準確理解用戶意圖并提供合適的回復。
多模態處理能力：通過圖像數據的訓練，模型具備圖像理解能力，能識別圖像中的物體、場景及顏色等元素，并對圖像內容進行準確描述和分析。Scout 版本支持 1000 萬 tokens 的上下文窗口，適合處理長文本總結、基于大型代碼庫的推理等任務。
高效的推理與計算能力：采用混合專家（MoE）架構，使模型分為多個專注于特定任務的“專家”子模型，從而提高訓練和查詢響應的效率，降低了模型的服務成本和延遲。
多語言處理能力：通過在 200 種語言上的預訓練，Llama 4 能處理和生成多種語言文本，支持跨語言的交流與任務處理，如語言翻譯和文本分析，幫助用戶消除語言障礙。

Llama 4的技術原理

混合專家（MoE）架構：Llama 4 是 Llama 系列中首個采用 MoE 架構的模型。在 MoE 模型中，每個 token 僅激活一小部分參數。例如，Maverick 模型擁有 4000 億個總參數，但只有 170 億個是活躍的。Meta 通過交替使用稠密層和 MoE 層，確保每個 token 被送至共享專家和 128 個路由專家中的一個，從而在運行模型時僅激活部分參數，提升推理效率，降低服務成本和延遲。
原生多模態設計：Llama 4 是一個原生多模態模型，采用早期融合技術，能夠將文本與視覺 token 無縫整合在統一的模型框架中。它可以利用海量的無標簽文本、圖像和視頻數據進行預訓練。Meta 對 Llama 4 的視覺編碼器進行了升級，編碼器基于 MetaCLIP，訓練時與固定的 Llama 模型分開，能夠更好地調整編碼器以適應大語言模型（LLM）。
模型超參數優化：Meta 研發了 MetaP 新訓練方法，能夠有效設置關鍵的模型超參數，例如每層的學習率和初始化規模，這些超參數在不同的批大小、模型寬度、深度及訓練 token 量上均能良好適配。
高效的模型訓練：使用 FP8 精度進行訓練，確保不損失質量的同時提升模型的 FLOPs 利用率。例如，在使用 FP8 精度和 32K 個 GPU 預訓練 Llama 4 Behemoth 模型時，能夠實現每個 GPU 390 TFLOPs 的性能。訓練數據涵蓋超過 30 萬億個 token，包括文本、圖像和視頻數據集。通過“中期訓練”方式持續訓練模型，擴展長上下文，提升核心能力，使 Llama 4 Scout 能夠解鎖 1000 萬輸入上下文長度的領先性能。
后訓練流程優化：訓練流程包含輕量級監督微調（SFT）、在線強化學習（RL）及輕量級直接偏好優化（DPO）。為避免 SFT 和 DPO 對模型的過度限制，Meta 利用 Llama 模型作為評判者，剔除超過 50% 被標記為“簡單”的數據，對剩余的困難數據進行輕量級 SFT，并在多模態在線 RL 階段精心選擇更具挑戰性的提示，實施持續在線 RL 策略，交替進行模型訓練與數據篩選，保留中等到高難度的提示，最后進行輕量級 DPO，以平衡模型的智能性與對話能力。

Llama 4的項目地址

項目官網：https://ai.meta.com/blog/llama-4
HuggingFace模型庫：https://huggingface.co/collections/meta-llama/llama-4

Llama 4的應用場景

對話系統：Llama 4 可用于開發智能機器人，特別是 Maverick 適合用作通用 AI 助手和應用，能夠理解用戶的問題并生成自然流暢的回答，提供信息、解答疑問或進行閑聊。
文本生成：具備創意寫作能力，能夠創作故事、詩歌和劇本等，也可用于撰寫新聞報道、產品說明和文案策劃，根據特定主題和要求生成高質量的文本。
代碼生成與輔助：能夠幫助開發者生成代碼，基于功能描述提供相應的代碼片段或完整程序，并提供代碼解釋、注釋生成和代碼規范檢查等輔助功能，提升開發效率。
代碼理解與分析：Scout 可基于大型代碼庫進行推理，協助開發者理解復雜代碼的邏輯與功能，進行代碼審查和漏洞檢測等工作。
圖像理解與描述：Maverick 在圖像精準理解方面表現出色，能夠識別圖像中的物體、場景及顏色，對圖像內容進行描述和分析，例如輸入一張照片，可以對照片內容進行詳細描述和判斷拍攝地點。
信息檢索與推薦：結合其語言理解與生成能力，能夠用于信息檢索系統，理解用戶的查詢意圖，提供更精準的搜索結果，并基于用戶的興趣和行為進行個性化推薦。

閱讀原文