開源+共訓(xùn),雙輪驅(qū)動(dòng)基礎(chǔ)大模型創(chuàng)新普惠 |浪潮信息吳韶華@MEET2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:開源+共訓(xùn),雙輪驅(qū)動(dòng)基礎(chǔ)大模型創(chuàng)新普惠 |浪潮信息吳韶華@MEET2024
關(guān)鍵字:模型,數(shù)據(jù),結(jié)構(gòu),能力,里面
文章來源:量子位
內(nèi)容字?jǐn)?shù):9353字
內(nèi)容摘要:
編輯部 整理自 MEET2024量子位 | 公眾號(hào) QbitAI相比GPT-3,GPT-4(包括GPT-3.5)的能力有了非常巨大的進(jìn)步。
這背后其實(shí)得益于一個(gè)很重要的過程引入:微調(diào)。
在給定模型結(jié)構(gòu)的情況下(即Transformer結(jié)構(gòu)),隨著模型參數(shù)量增大、投入算力規(guī)模和數(shù)據(jù)規(guī)模越大,模型的精度往往會(huì)更高。
但此類擴(kuò)展率的研究是基于預(yù)訓(xùn)練的范式下開展。隨即,訓(xùn)練模式的變化讓我們也不得不重新思考:
在“預(yù)訓(xùn)練+微調(diào)”的范式下,尤其在微調(diào)的重要性越來越高的情況下,如何改進(jìn)算法、數(shù)據(jù)以適應(yīng)預(yù)訓(xùn)練與微調(diào)不同階段的特性?
在MEET 2024智能未來大會(huì)現(xiàn)場(chǎng),浪潮信息AI軟件研發(fā)總監(jiān)吳韶華博士便拋出了這樣一個(gè)問題。
他介紹,浪潮信息的“源1.0”大模型和“源2.0”大模型正是基于以上角度出發(fā),從算法、數(shù)據(jù)、計(jì)算三個(gè)層面入手打造而成,最終在代碼、數(shù)據(jù)邏輯等方面都取得了很出色的表現(xiàn)。
那么,具體都有哪些實(shí)踐和經(jīng)驗(yàn)?
為了完整體現(xiàn)吳韶華博士對(duì)GPT-4時(shí)代大模型訓(xùn)練模式的見解和思考,量子位在不改變?cè)獾幕A(chǔ)上,對(duì)他的演講內(nèi)容進(jìn)行了編輯整理。
關(guān)于MEET 智能未來大會(huì):MEET大會(huì)是由量子位主辦的
原文鏈接:開源+共訓(xùn),雙輪驅(qū)動(dòng)基礎(chǔ)大模型創(chuàng)新普惠 |浪潮信息吳韶華@MEET2024
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破