張俊林：淺談Llama3、大模型開源與閉源以及合成數(shù)據(jù)

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布算法邦

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：張俊林：淺談Llama3、大模型開源與閉源以及合成數(shù)據(jù)
關(guān)鍵字：模型,數(shù)據(jù),能力,侵權(quán),知乎
文章來源：算法邦
內(nèi)容字?jǐn)?shù)：7021字

內(nèi)容摘要：

導(dǎo)讀本文來自知乎，作者為張俊林。在本文中作者對(duì)LLAMA-3、大模型開源與閉源以及合成數(shù)據(jù)發(fā)表了一些個(gè)人看法。希望本文對(duì)大家有一定的幫助。
原文鏈接：https://www.zhihu.com/question/653373334
本文只做學(xué)術(shù)/技術(shù)分享，如有侵權(quán)，聯(lián)系刪文。LLAMA-3的發(fā)布是大模型開源屆的大事，蹭下熱度，在這里談下有關(guān)LLAMA-3、大模型開源與閉源以及合成數(shù)據(jù)的一些個(gè)人看法。
01LLAMA-3的基本情況模型結(jié)構(gòu)與LLAMA-2相比沒有大的變動(dòng)，主要變化一點(diǎn)在于Token詞典從LLAMA-2的32K拓展到了128K，以增加編碼效率；另外一點(diǎn)是引入了Grouped Query Attention (GQA），這可以減少推理過程中的KV緩存大小，增加推理效率；還有一點(diǎn)是輸入上下文長度從4K拓展到了8K，這個(gè)長度相比競品來說仍然有點(diǎn)短。最重要的改變是訓(xùn)練數(shù)據(jù)量的極大擴(kuò)充，從LLAMA-2的2T Tokens，擴(kuò)展了大約8倍到了15T Tokens，其中代碼數(shù)據(jù)擴(kuò)充了4倍，這導(dǎo)致LLAMA-3在代碼能力和邏輯推理能力的大幅度提升。15T token數(shù)據(jù)那是相當(dāng)之大了，傳

原文鏈接：張俊林：淺談Llama3、大模型開源與閉源以及合成數(shù)據(jù)