張俊林:淺談Llama3、大模型開源與閉源以及合成數(shù)據(jù)
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:張俊林:淺談Llama3、大模型開源與閉源以及合成數(shù)據(jù)
關(guān)鍵字:模型,數(shù)據(jù),能力,侵權(quán),知乎
文章來源:算法邦
內(nèi)容字?jǐn)?shù):7021字
內(nèi)容摘要:
導(dǎo)讀本文來自知乎,作者為張俊林。在本文中作者對(duì)LLAMA-3、大模型開源與閉源以及合成數(shù)據(jù)發(fā)表了一些個(gè)人看法。希望本文對(duì)大家有一定的幫助。
原文鏈接:https://www.zhihu.com/question/653373334
本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。LLAMA-3的發(fā)布是大模型開源屆的大事,蹭下熱度,在這里談下有關(guān)LLAMA-3、大模型開源與閉源以及合成數(shù)據(jù)的一些個(gè)人看法。
01LLAMA-3的基本情況模型結(jié)構(gòu)與LLAMA-2相比沒有大的變動(dòng),主要變化一點(diǎn)在于Token詞典從LLAMA-2的32K拓展到了128K,以增加編碼效率;另外一點(diǎn)是引入了Grouped Query Attention (GQA),這可以減少推理過程中的KV緩存大小,增加推理效率;還有一點(diǎn)是輸入上下文長度從4K拓展到了8K,這個(gè)長度相比競品來說仍然有點(diǎn)短。最重要的改變是訓(xùn)練數(shù)據(jù)量的極大擴(kuò)充,從LLAMA-2的2T Tokens,擴(kuò)展了大約8倍到了15T Tokens,其中代碼數(shù)據(jù)擴(kuò)充了4倍,這導(dǎo)致LLAMA-3在代碼能力和邏輯推理能力的大幅度提升。15T token數(shù)據(jù)那是相當(dāng)之大了,傳
原文鏈接:張俊林:淺談Llama3、大模型開源與閉源以及合成數(shù)據(jù)
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號(hào)之一,連接AI新青年,講解研究成果,分享系統(tǒng)思考。