華為王云鶴：對“小”的大模型的優(yōu)化重新思考

AIGC動態(tài)2年前 (2024)發(fā)布算法邦

AIGC動態(tài)歡迎閱讀

原標題：華為王云鶴：對“小”的大模型的優(yōu)化重新思考
關(guān)鍵字：模型,參數(shù),小米,侵權(quán),華為
文章來源：算法邦
內(nèi)容字數(shù)：6615字

內(nèi)容摘要：

700個開發(fā)硬件免費申請?現(xiàn)金大獎！生成式 AI、機器人 AI、PC AI 三大賽道！AMD Pervasive AI 開發(fā)者挑戰(zhàn)賽報名火熱進行中，掃碼了解詳情并報名～導(dǎo)讀作者為華為諾亞方舟實驗室高級研究員王云鶴。本文是對如何優(yōu)化“小”的大模型的總結(jié)思考，涉及分詞器、模型架構(gòu)、參數(shù)繼承和多輪訓(xùn)練四個方面。
原文地址：
https://zhuanlan.zhihu.com/p/681614203
本文只做學(xué)術(shù)分享，如有侵權(quán)，聯(lián)系刪文。盤古π-1.5B Pro以及盤古π-1B Pro的更新，附論文及部分代碼。一直以來，給部分同學(xué)的感覺是我對整個大模型（大模型實為大的語言模型，LLM，后面不贅述）持悲觀甚至反感的態(tài)度。
反感其實談不上，只是偶爾覺得這個領(lǐng)域有一點“臟”（沒有清晰的訓(xùn)練集、測試集、驗證集），但自己也都在盤古大模型的項目中，也用大模型做了一些工作。但是，悲觀確實還是悲觀的，對我個人來說，核心矛盾還是在于，大模型就是大的精度好的語言模型，本質(zhì)上沒帶來什么特別多的能讓用戶買單的新特性。
2023年下半年，大家發(fā)現(xiàn)云上的AI助手會帶來很多問題，例如成本、隱私、時延等。所以一直在讓團隊成

原文鏈接：華為王云鶴：對“小”的大模型的優(yōu)化重新思考