AIGC動態歡迎閱讀
原標題:華為王云鶴:對“小”的大模型的優化重新思考
關鍵字:模型,參數,小米,侵權,華為
文章來源:算法邦
內容字數:6615字
內容摘要:
700個開發硬件免費申請?現金大獎!生成式 AI、機器人 AI、PC AI 三大賽道!AMD Pervasive AI 開發者挑戰賽報名火熱進行中,掃碼了解詳情并報名~導讀作者為華為諾亞方舟實驗室高級研究員王云鶴。本文是對如何優化“小”的大模型的總結思考,涉及分詞器、模型架構、參數繼承和多輪訓練四個方面。
原文地址:
https://zhuanlan.zhihu.com/p/681614203
本文只做學術分享,如有侵權,聯系刪文。盤古π-1.5B Pro以及盤古π-1B Pro的更新,附論文及部分代碼。一直以來,給部分同學的感覺是我對整個大模型(大模型實為大的語言模型,LLM,后面不贅述)持悲觀甚至反感的態度。
反感其實談不上,只是偶爾覺得這個領域有一點“臟”(沒有清晰的訓練集、測試集、驗證集),但自己也都在盤古大模型的項目中,也用大模型做了一些工作。但是,悲觀確實還是悲觀的,對我個人來說,核心矛盾還是在于,大模型就是大的精度好的語言模型,本質上沒帶來什么特別多的能讓用戶買單的新特性。
2023年下半年,大家發現云上的AI助手會帶來很多問題,例如成本、隱私、時延等。所以一直在讓團隊成
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接青年AI學者,講解研究成果,分享系統思考。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...