華為王云鶴:對“小”的大模型的優(yōu)化重新思考

AIGC動態(tài)歡迎閱讀
原標題:華為王云鶴:對“小”的大模型的優(yōu)化重新思考
關(guān)鍵字:模型,參數(shù),小米,侵權(quán),華為
文章來源:算法邦
內(nèi)容字數(shù):6615字
內(nèi)容摘要:
700個開發(fā)硬件免費申請?現(xiàn)金大獎!生成式 AI、機器人 AI、PC AI 三大賽道!AMD Pervasive AI 開發(fā)者挑戰(zhàn)賽報名火熱進行中,掃碼了解詳情并報名~導(dǎo)讀作者為華為諾亞方舟實驗室高級研究員王云鶴。本文是對如何優(yōu)化“小”的大模型的總結(jié)思考,涉及分詞器、模型架構(gòu)、參數(shù)繼承和多輪訓(xùn)練四個方面。
原文地址:
https://zhuanlan.zhihu.com/p/681614203
本文只做學(xué)術(shù)分享,如有侵權(quán),聯(lián)系刪文。盤古π-1.5B Pro以及盤古π-1B Pro的更新,附論文及部分代碼。一直以來,給部分同學(xué)的感覺是我對整個大模型(大模型實為大的語言模型,LLM,后面不贅述)持悲觀甚至反感的態(tài)度。
反感其實談不上,只是偶爾覺得這個領(lǐng)域有一點“臟”(沒有清晰的訓(xùn)練集、測試集、驗證集),但自己也都在盤古大模型的項目中,也用大模型做了一些工作。但是,悲觀確實還是悲觀的,對我個人來說,核心矛盾還是在于,大模型就是大的精度好的語言模型,本質(zhì)上沒帶來什么特別多的能讓用戶買單的新特性。
2023年下半年,大家發(fā)現(xiàn)云上的AI助手會帶來很多問題,例如成本、隱私、時延等。所以一直在讓團隊成
原文鏈接:華為王云鶴:對“小”的大模型的優(yōu)化重新思考
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,連接青年AI學(xué)者,講解研究成果,分享系統(tǒng)思考。

粵公網(wǎng)安備 44011502001135號