擊敗GPT-4o的開源模型如何煉成?關(guān)于Llama 3.1 405B,Meta都寫在這篇論文里了
AIGC動態(tài)歡迎閱讀
原標(biāo)題:擊敗GPT-4o的開源模型如何煉成?關(guān)于Llama 3.1 405B,Meta都寫在這篇論文里了
關(guān)鍵字:模型,論文,上下文,系列,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報道
機(jī)器之心編輯部經(jīng)歷了提前兩天的「意外泄露」之后,Llama 3.1 終于在昨夜由官方正式發(fā)布了。
Llama 3.1 將上下文長度擴(kuò)展到了 128K,擁有 8B、70B 和 405B 三個版本,再次以一已之力抬高了大模型賽道的競爭標(biāo)準(zhǔn)。
對 AI 社區(qū)來說,Llama 3.1 405B 最重要的意義是刷新了開源基礎(chǔ)模型的能力上限,Meta 官方稱,在一系列任務(wù)中,其性能可與最好的閉源模型相媲美。
下表展示了當(dāng)前 Llama 3 系列模型在關(guān)鍵基準(zhǔn)測試上的性能。可以看出,405B 模型的性能與 GPT-4o 十分接近。與此同時,Meta 公布了《The Llama 3 Herd of Models》論文,揭示了 Llama 3 系列模型迄今為止的研究細(xì)節(jié)。論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
接下來,讓我們看一下論文內(nèi)容。
Llama3 論文亮點
1、在使用 8K 上下文長度進(jìn)行預(yù)訓(xùn)練后,Llama 3.1 405B 使用 128K 上下文長度進(jìn)行連續(xù)訓(xùn)練,且支持
原文鏈接:擊敗GPT-4o的開源模型如何煉成?關(guān)于Llama 3.1 405B,Meta都寫在這篇論文里了
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: