Llama 4 – Meta 推出的多模態(tài)系列模型
Llama 4 是由 Meta 開發(fā)的多模態(tài)人工智能模型,采用創(chuàng)新的混合專家(MoE)架構(gòu),提升了計算和推理的效率。該模型目前有兩種版本:Scout 和 Maverick。Scout 版本包含 170 億個活躍參數(shù)和 1090 億個總參數(shù),能夠支持 1000 萬個上下文并處理超過 20 小時的視頻,運行在單個 H100 GPU 上,表現(xiàn)超越了 Gemma 3 等其他模型。Maverick 版本同樣有 170 億個活躍參數(shù),但配備了 128 個“專家”模型,總參數(shù)達(dá)到 4000 億,在圖像理解和創(chuàng)意寫作領(lǐng)域表現(xiàn)尤為突出,適合用于多種智能助手和對話應(yīng)用。此外,Llama 4 Behemoth 仍在訓(xùn)練中,預(yù)計將擁有 2 萬億參數(shù),已在 STEM 基準(zhǔn)測試中展現(xiàn)了優(yōu)異的性能。
Llama 4是什么
Llama 4 是 Meta 推出的先進(jìn)多模態(tài)人工智能模型,首次引入混合專家(MoE)架構(gòu),顯著提高了訓(xùn)練和推理的效率。該模型分為 Scout 和 Maverick 兩個版本。Scout 版本具有 170 億個活躍參數(shù)和 1090 億個總參數(shù),支持 1000 萬個上下文窗口,能夠處理長達(dá) 20 小時的視頻,并且能夠在單個 H100 GPU 上高效運行,性能超越了 Gemma 3 等競爭模型。Maverick 版本同樣擁有 170 億個活躍參數(shù),配備 128 個“專家”模型,總參數(shù)達(dá)到 4000 億,專注于圖像理解和創(chuàng)意寫作,適合用作通用助手和類應(yīng)用,在大模型 LMSYS 排行榜中名列前茅。Llama 4 Behemoth 是一個仍在開發(fā)中的預(yù)覽版本,預(yù)計將擁有 2 萬億參數(shù),并在 STEM 基準(zhǔn)測試中表現(xiàn)出色。Llama 4 支持在 200 種語言上進(jìn)行開源微調(diào),其訓(xùn)練數(shù)據(jù)超過 30 萬億個 token。
Llama 4的主要功能
- 卓越的語言理解與生成能力:經(jīng)過大量文本數(shù)據(jù)的訓(xùn)練,Llama 4 在語言理解上表現(xiàn)精準(zhǔn),能夠生成邏輯連貫的文本,適用于創(chuàng)意寫作、文章撰寫及對話交互。例如,在故事創(chuàng)作中,能基于給定的主題和情節(jié)線索生成生動的故事內(nèi)容;在對話中,能準(zhǔn)確理解用戶意圖并提供合適的回復(fù)。
- 多模態(tài)處理能力:通過圖像數(shù)據(jù)的訓(xùn)練,模型具備圖像理解能力,能識別圖像中的物體、場景及顏色等元素,并對圖像內(nèi)容進(jìn)行準(zhǔn)確描述和分析。Scout 版本支持 1000 萬 tokens 的上下文窗口,適合處理長文本總結(jié)、基于大型代碼庫的推理等任務(wù)。
- 高效的推理與計算能力:采用混合專家(MoE)架構(gòu),使模型分為多個專注于特定任務(wù)的“專家”子模型,從而提高訓(xùn)練和查詢響應(yīng)的效率,降低了模型的服務(wù)成本和延遲。
- 多語言處理能力:通過在 200 種語言上的預(yù)訓(xùn)練,Llama 4 能處理和生成多種語言文本,支持跨語言的交流與任務(wù)處理,如語言翻譯和文本分析,幫助用戶消除語言障礙。
Llama 4的技術(shù)原理
- 混合專家(MoE)架構(gòu):Llama 4 是 Llama 系列中首個采用 MoE 架構(gòu)的模型。在 MoE 模型中,每個 token 僅激活一小部分參數(shù)。例如,Maverick 模型擁有 4000 億個總參數(shù),但只有 170 億個是活躍的。Meta 通過交替使用稠密層和 MoE 層,確保每個 token 被送至共享專家和 128 個路由專家中的一個,從而在運行模型時僅激活部分參數(shù),提升推理效率,降低服務(wù)成本和延遲。
- 原生多模態(tài)設(shè)計:Llama 4 是一個原生多模態(tài)模型,采用早期融合技術(shù),能夠?qū)⑽谋九c視覺 token 無縫整合在統(tǒng)一的模型框架中。它可以利用海量的無標(biāo)簽文本、圖像和視頻數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。Meta 對 Llama 4 的視覺編碼器進(jìn)行了升級,編碼器基于 MetaCLIP,訓(xùn)練時與固定的 Llama 模型分開,能夠更好地調(diào)整編碼器以適應(yīng)大語言模型(LLM)。
- 模型超參數(shù)優(yōu)化:Meta 研發(fā)了 MetaP 新訓(xùn)練方法,能夠有效設(shè)置關(guān)鍵的模型超參數(shù),例如每層的學(xué)習(xí)率和初始化規(guī)模,這些超參數(shù)在不同的批大小、模型寬度、深度及訓(xùn)練 token 量上均能良好適配。
- 高效的模型訓(xùn)練:使用 FP8 精度進(jìn)行訓(xùn)練,確保不損失質(zhì)量的同時提升模型的 FLOPs 利用率。例如,在使用 FP8 精度和 32K 個 GPU 預(yù)訓(xùn)練 Llama 4 Behemoth 模型時,能夠?qū)崿F(xiàn)每個 GPU 390 TFLOPs 的性能。訓(xùn)練數(shù)據(jù)涵蓋超過 30 萬億個 token,包括文本、圖像和視頻數(shù)據(jù)集。通過“中期訓(xùn)練”方式持續(xù)訓(xùn)練模型,擴展長上下文,提升核心能力,使 Llama 4 Scout 能夠解鎖 1000 萬輸入上下文長度的領(lǐng)先性能。
- 后訓(xùn)練流程優(yōu)化:訓(xùn)練流程包含輕量級監(jiān)督微調(diào)(SFT)、在線強化學(xué)習(xí)(RL)及輕量級直接偏好優(yōu)化(DPO)。為避免 SFT 和 DPO 對模型的過度限制,Meta 利用 Llama 模型作為評判者,剔除超過 50% 被標(biāo)記為“簡單”的數(shù)據(jù),對剩余的困難數(shù)據(jù)進(jìn)行輕量級 SFT,并在多模態(tài)在線 RL 階段精心選擇更具挑戰(zhàn)性的提示,實施持續(xù)在線 RL 策略,交替進(jìn)行模型訓(xùn)練與數(shù)據(jù)篩選,保留中等到高難度的提示,最后進(jìn)行輕量級 DPO,以平衡模型的智能性與對話能力。
Llama 4的項目地址
- 項目官網(wǎng):https://ai.meta.com/blog/llama-4
- HuggingFace模型庫:https://huggingface.co/collections/meta-llama/llama-4
Llama 4的應(yīng)用場景
- 對話系統(tǒng):Llama 4 可用于開發(fā)智能機器人,特別是 Maverick 適合用作通用 AI 助手和應(yīng)用,能夠理解用戶的問題并生成自然流暢的回答,提供信息、解答疑問或進(jìn)行閑聊。
- 文本生成:具備創(chuàng)意寫作能力,能夠創(chuàng)作故事、詩歌和劇本等,也可用于撰寫新聞報道、產(chǎn)品說明和文案策劃,根據(jù)特定主題和要求生成高質(zhì)量的文本。
- 代碼生成與輔助:能夠幫助開發(fā)者生成代碼,基于功能描述提供相應(yīng)的代碼片段或完整程序,并提供代碼解釋、注釋生成和代碼規(guī)范檢查等輔助功能,提升開發(fā)效率。
- 代碼理解與分析:Scout 可基于大型代碼庫進(jìn)行推理,協(xié)助開發(fā)者理解復(fù)雜代碼的邏輯與功能,進(jìn)行代碼審查和漏洞檢測等工作。
- 圖像理解與描述:Maverick 在圖像精準(zhǔn)理解方面表現(xiàn)出色,能夠識別圖像中的物體、場景及顏色,對圖像內(nèi)容進(jìn)行描述和分析,例如輸入一張照片,可以對照片內(nèi)容進(jìn)行詳細(xì)描述和判斷拍攝地點。
- 信息檢索與推薦:結(jié)合其語言理解與生成能力,能夠用于信息檢索系統(tǒng),理解用戶的查詢意圖,提供更精準(zhǔn)的搜索結(jié)果,并基于用戶的興趣和行為進(jìn)行個性化推薦。