擊敗GPT-4o的開源模型如何煉成？關(guān)于Llama 3.1 405B，Meta都寫在這篇論文里了

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：擊敗GPT-4o的開源模型如何煉成？關(guān)于Llama 3.1 405B，Meta都寫在這篇論文里了
關(guān)鍵字：模型,論文,上下文,系列,數(shù)據(jù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報道
機(jī)器之心編輯部經(jīng)歷了提前兩天的「意外泄露」之后，Llama 3.1 終于在昨夜由官方正式發(fā)布了。
Llama 3.1 將上下文長度擴(kuò)展到了 128K，擁有 8B、70B 和 405B 三個版本，再次以一已之力抬高了大模型賽道的競爭標(biāo)準(zhǔn)。
對 AI 社區(qū)來說，Llama 3.1 405B 最重要的意義是刷新了開源基礎(chǔ)模型的能力上限，Meta 官方稱，在一系列任務(wù)中，其性能可與最好的閉源模型相媲美。
下表展示了當(dāng)前 Llama 3 系列模型在關(guān)鍵基準(zhǔn)測試上的性能。可以看出，405B 模型的性能與 GPT-4o 十分接近。與此同時，Meta 公布了《The Llama 3 Herd of Models》論文，揭示了 Llama 3 系列模型迄今為止的研究細(xì)節(jié)。論文地址：https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
接下來，讓我們看一下論文內(nèi)容。
Llama3 論文亮點
1、在使用 8K 上下文長度進(jìn)行預(yù)訓(xùn)練后，Llama 3.1 405B 使用 128K 上下文長度進(jìn)行連續(xù)訓(xùn)練，且支持

原文鏈接：擊敗GPT-4o的開源模型如何煉成？關(guān)于Llama 3.1 405B，Meta都寫在這篇論文里了