Llama 3
Llama 3官網(wǎng)入口網(wǎng)址,Llama 3是Meta公司最新開(kāi)源推出的新一代大型語(yǔ)言模型(LLM),包含8B和70B兩種參數(shù)規(guī)模的模型,標(biāo)志著開(kāi)源人工智能領(lǐng)域的又一重大進(jìn)步。作為L(zhǎng)lama系列的第三...
標(biāo)簽:AI訓(xùn)練模型AI訓(xùn)練模型Llama 3官網(wǎng)
Llama 3是Meta公司最新開(kāi)源推出的新一代大型語(yǔ)言模型(LLM),包含8B和70B兩種參數(shù)規(guī)模的模型,標(biāo)志著開(kāi)源人工智能領(lǐng)域的又一重大進(jìn)步。作為L(zhǎng)lama系列的第三代產(chǎn)品,Llama 3不僅繼承了前代模型的強(qiáng)大功能,還通過(guò)一系列創(chuàng)新和改進(jìn),提供了更高效、更可靠的AI解決方案。
網(wǎng)站服務(wù):。
Llama 3是什么
Llama 3是Meta公司最新開(kāi)源推出的新一代大型語(yǔ)言模型(LLM),包含8B和70B兩種參數(shù)規(guī)模的模型,標(biāo)志著開(kāi)源人工智能領(lǐng)域的又一重大進(jìn)步。作為L(zhǎng)lama系列的第三代產(chǎn)品,Llama 3不僅繼承了前代模型的強(qiáng)大功能,還通過(guò)一系列創(chuàng)新和改進(jìn),提供了更高效、更可靠的AI解決方案,旨在通過(guò)先進(jìn)的自然語(yǔ)言處理技術(shù),支持廣泛的應(yīng)用場(chǎng)景,包括但不限于編程、問(wèn)題解決、翻譯和對(duì)話(huà)生成。
Llama 3的系列型號(hào)
Llama 3目前提供了兩種型號(hào),分別為8B(80億參數(shù))和70B(700億參數(shù))的版本,這兩種型號(hào)旨在滿(mǎn)足不同層次的應(yīng)用需求,為用戶(hù)提供了靈活性和選擇的度。
- Llama-3-8B:8B參數(shù)模型,這是一個(gè)相對(duì)較小但高效的模型,擁有80億個(gè)參數(shù)。專(zhuān)為需要快速推理和較少計(jì)算資源的應(yīng)用場(chǎng)景設(shè)計(jì),同時(shí)保持了較高的性能標(biāo)準(zhǔn)。
- Llama-3-70B:70B參數(shù)模型,這是一個(gè)更大規(guī)模的模型,擁有700億個(gè)參數(shù)。它能夠處理更復(fù)雜的任務(wù),提供更深入的語(yǔ)言理解和生成能力,適合對(duì)性能要求更高的應(yīng)用。
后續(xù),Llama 3 還會(huì)推出 400B 參數(shù)規(guī)模的模型,目前還在訓(xùn)練中。Meta 還表示等完成 Llama 3 的訓(xùn)練,還將發(fā)布一份詳細(xì)的研究論文。
Llama 3的官網(wǎng)入口
- 官方項(xiàng)目主頁(yè):https://llama.meta.com/llama3/
- GitHub模型權(quán)重和代碼:https://github.com/meta-llama/llama3/
- Hugging Face模型:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
Llama 3的改進(jìn)地方
- 參數(shù)規(guī)模:Llama 3提供了8B和70B兩種參數(shù)規(guī)模的模型,相比Llama 2,參數(shù)數(shù)量的增加使得模型能夠捕捉和學(xué)習(xí)更復(fù)雜的語(yǔ)言模式。
- 訓(xùn)練數(shù)據(jù)集:Llama 3的訓(xùn)練數(shù)據(jù)集比Llama 2大了7倍,包含了超過(guò)15萬(wàn)億個(gè)token,其中包括4倍的代碼數(shù)據(jù),這使得Llama 3在理解和生成代碼方面更加出色。
- 模型架構(gòu):Llama 3采用了更高效的分詞器和分組查詢(xún)注意力(Grouped Query Attention, GQA)技術(shù),提高了模型的推理效率和處理長(zhǎng)文本的能力。
- 性能提升:通過(guò)改進(jìn)的預(yù)訓(xùn)練和后訓(xùn)練過(guò)程,Llama 3在減少錯(cuò)誤拒絕率、提升響應(yīng)對(duì)齊和增加模型響應(yīng)多樣性方面取得了進(jìn)步。
- 安全性:引入了Llama Guard 2等新的信任和安全工具,以及Code Shield和CyberSec Eval 2,增強(qiáng)了模型的安全性和可靠性。
- 多語(yǔ)言支持:Llama 3在預(yù)訓(xùn)練數(shù)據(jù)中加入了超過(guò)30種語(yǔ)言的高質(zhì)量非英語(yǔ)數(shù)據(jù),為未來(lái)的多語(yǔ)言能力打下了基礎(chǔ)。
- 推理和代碼生成:Llama 3在推理、代碼生成和指令跟隨等方面展現(xiàn)了大幅提升的能力,使其在復(fù)雜任務(wù)處理上更加精準(zhǔn)和高效。
Llama 3的性能評(píng)估
根據(jù)Meta的官方博客,經(jīng)指令微調(diào)后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等數(shù)據(jù)集基準(zhǔn)測(cè)試中都優(yōu)于同等級(jí)參數(shù)規(guī)模的模型(Gemma 7B、Mistral 7B),而微調(diào)后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基準(zhǔn)測(cè)試中也都優(yōu)于同等規(guī)模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。
此外,Meta還開(kāi)發(fā)了一套新的高質(zhì)量人類(lèi)評(píng)估集,包含 1800 個(gè)提示,涵蓋 12 個(gè)關(guān)鍵用例:尋求建議、頭腦風(fēng)暴、分類(lèi)、封閉式問(wèn)答、編碼、創(chuàng)意寫(xiě)作、提取、塑造角色/角色、開(kāi)放式問(wèn)答、推理、重寫(xiě)和總結(jié)。通過(guò)與Claude Sonnet、Mistral Medium和GPT-3.5等競(jìng)爭(zhēng)模型的比較,人類(lèi)評(píng)估者基于該評(píng)估集進(jìn)行了偏好排名,結(jié)果顯示Llama 3在真實(shí)世界場(chǎng)景中的性能非常出色,最低都有52.9%的勝出率。
Llama 3的技術(shù)架構(gòu)
- 解碼器架構(gòu):Llama 3采用了解碼器(decoder-only)架構(gòu),這是一種標(biāo)準(zhǔn)的Transformer模型架構(gòu),主要用于處理自然語(yǔ)言生成任務(wù)。
- 分詞器和詞匯量:Llama 3使用了具有128K個(gè)token的分詞器,這使得模型能夠更高效地編碼語(yǔ)言,從而顯著提升性能。
- 分組查詢(xún)注意力(Grouped Query Attention, GQA):為了提高推理效率,Llama 3在8B和70B模型中都采用了GQA技術(shù)。這種技術(shù)通過(guò)將注意力機(jī)制中的查詢(xún)分組,減少了計(jì)算量,同時(shí)保持了模型的性能。
- 長(zhǎng)序列處理:Llama 3支持長(zhǎng)達(dá)8,192個(gè)token的序列,使用掩碼(masking)技術(shù)確保自注意力(self-attention)不會(huì)跨越文檔邊界,這對(duì)于處理長(zhǎng)文本尤其重要。
- 預(yù)訓(xùn)練數(shù)據(jù)集:Llama 3在超過(guò)15TB的token上進(jìn)行了預(yù)訓(xùn)練,這個(gè)數(shù)據(jù)集不僅規(guī)模巨大,而且質(zhì)量高,為模型提供了豐富的語(yǔ)言信息。
- 多語(yǔ)言數(shù)據(jù):為了支持多語(yǔ)言能力,Llama 3的預(yù)訓(xùn)練數(shù)據(jù)集包含了超過(guò)5%的非英語(yǔ)高質(zhì)量數(shù)據(jù),涵蓋了超過(guò)30種語(yǔ)言。
- 數(shù)據(jù)過(guò)濾和質(zhì)量控制:Llama 3的開(kāi)發(fā)團(tuán)隊(duì)開(kāi)發(fā)了一系列數(shù)據(jù)過(guò)濾管道,包括啟發(fā)式過(guò)濾器、NSFW(不適合工作場(chǎng)所)過(guò)濾器、語(yǔ)義去重方法和文本分類(lèi)器,以確保訓(xùn)練數(shù)據(jù)的高質(zhì)量。
- 擴(kuò)展性和并行化:Llama 3的訓(xùn)練過(guò)程中采用了數(shù)據(jù)并行化、模型并行化和流水線(xiàn)并行化,這些技術(shù)的應(yīng)用使得模型能夠高效地在大量GPU上進(jìn)行訓(xùn)練。
- 指令微調(diào)(Instruction Fine-Tuning):Llama 3在預(yù)訓(xùn)練模型的基礎(chǔ)上,通過(guò)指令微調(diào)進(jìn)一步提升了模型在特定任務(wù)上的表現(xiàn),如對(duì)話(huà)和編程任務(wù)。
如何使用Llama 3
Llama 3已在GitHub和Hugging Face上開(kāi)源其模型,開(kāi)發(fā)人員可使用torchtune等工具對(duì)Llama 3進(jìn)行定制和微調(diào),以適應(yīng)特定的用例和需求,感興趣的開(kāi)發(fā)者可以查看官方的入門(mén)指南并前往下載部署。普通的用戶(hù)可以訪(fǎng)問(wèn)Meta最新推出的Meta AI助手進(jìn)行體驗(yàn)。
Llama 3網(wǎng)址入口
https://llama.meta.com/llama3/
OpenI小編發(fā)現(xiàn)Llama 3網(wǎng)站非常受用戶(hù)歡迎,請(qǐng)?jiān)L問(wèn)Llama 3網(wǎng)址入口試用。
數(shù)據(jù)統(tǒng)計(jì)
數(shù)據(jù)評(píng)估
本站OpenI提供的Llama 3都來(lái)源于網(wǎng)絡(luò),不保證外部鏈接的準(zhǔn)確性和完整性,同時(shí),對(duì)于該外部鏈接的指向,不由OpenI實(shí)際控制,在2024年 4月 19日 上午6:01收錄時(shí),該網(wǎng)頁(yè)上的內(nèi)容,都屬于合規(guī)合法,后期網(wǎng)頁(yè)的內(nèi)容如出現(xiàn)違規(guī),可以直接聯(lián)系網(wǎng)站管理員進(jìn)行刪除,OpenI不承擔(dān)任何責(zé)任。
相關(guān)導(dǎo)航

已支持DeepSeek滿(mǎn)血版調(diào)用,Coze是由字節(jié)跳動(dòng)在海外推出的一個(gè)AI聊天機(jī)器人和應(yīng)用程序編輯開(kāi)發(fā)平臺(tái),可以理解為字節(jié)跳動(dòng)版的GPTs。無(wú)論用戶(hù)是否有編程經(jīng)驗(yàn),都可以通過(guò)該平臺(tái)快速創(chuàng)建各種類(lèi)型的聊天機(jī)器人、智能體、AI應(yīng)用和插件,并將其部署在社交平臺(tái)和即時(shí)聊天應(yīng)用程序中,如Discord、WhatsApp、Twitter,Coze官網(wǎng)入口網(wǎng)址。