AIGC動態歡迎閱讀
原標題:張俊林:淺談Llama3、大模型開源與閉源以及合成數據
關鍵字:模型,數據,能力,侵權,知乎
文章來源:算法邦
內容字數:7021字
內容摘要:
導讀本文來自知乎,作者為張俊林。在本文中作者對LLAMA-3、大模型開源與閉源以及合成數據發表了一些個人看法。希望本文對大家有一定的幫助。
原文鏈接:https://www.zhihu.com/question/653373334
本文只做學術/技術分享,如有侵權,聯系刪文。LLAMA-3的發布是大模型開源屆的大事,蹭下熱度,在這里談下有關LLAMA-3、大模型開源與閉源以及合成數據的一些個人看法。
01LLAMA-3的基本情況模型結構與LLAMA-2相比沒有大的變動,主要變化一點在于Token詞典從LLAMA-2的32K拓展到了128K,以增加編碼效率;另外一點是引入了Grouped Query Attention (GQA),這可以減少推理過程中的KV緩存大小,增加推理效率;還有一點是輸入上下文長度從4K拓展到了8K,這個長度相比競品來說仍然有點短。最重要的改變是訓練數據量的極大擴充,從LLAMA-2的2T Tokens,擴展了大約8倍到了15T Tokens,其中代碼數據擴充了4倍,這導致LLAMA-3在代碼能力和邏輯推理能力的大幅度提升。15T token數據那是相當之大了,傳
原文鏈接:張俊林:淺談Llama3、大模型開源與閉源以及合成數據
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接AI新青年,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...