150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory
關(guān)鍵字:模型,解讀,路由,專家,論文
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):4374字
內(nèi)容摘要:
新智元報(bào)道編輯:?jiǎn)虠?好困
【新智元導(dǎo)讀】前幾天,普林斯頓大合Meta在arXiv上發(fā)表了他們最新的研究成果——Lory模型,論文提出構(gòu)建完全可微的MoE模型,是一種預(yù)訓(xùn)練自回歸語(yǔ)言模型的新方法。不同于大多數(shù)模型使用字母縮略起名,論文作者在腳注中解釋道,Lory是一種羽毛有彩虹顏色的鸚鵡,和「軟MoE」的精神非常相似。
論文的作者團(tuán)隊(duì)也可以稱之為「明星陣容」。
論文地址:https://arxiv.org/abs/2405.03133
主要作者之一陳丹琦是普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系的助理教授,也是普林斯頓NLP小組共同之一。她本科畢業(yè)于清華大學(xué)姚班,2018年在斯坦福大學(xué)獲得博士學(xué)位,導(dǎo)師是大名鼎鼎的Christopher Manning。
斯坦福教授、NLP領(lǐng)域泰斗Dan Jurafsky曾這樣評(píng)價(jià)她:「她在發(fā)現(xiàn)重要的研究問(wèn)題上很有品位。她已經(jīng)對(duì)該領(lǐng)域產(chǎn)生了非凡的影響,并且她的影響只會(huì)越來(lái)越大。」
Mike Lewis是Meta AI的一名研究科學(xué)家,他領(lǐng)導(dǎo)了Meta剛發(fā)布的大語(yǔ)言模型Llama 3的預(yù)訓(xùn)練工作。
他此前曾發(fā)表過(guò)多項(xiàng)有影響力的研究成果,包括Bart、Robe
原文鏈接:150B token從頭訓(xùn)練,普林斯頓Meta發(fā)布完全可微MoE架構(gòu)Lory
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。