盛名一時(shí)的BERT哪去了?這個(gè)問題的答案昭示了LLM范式的轉(zhuǎn)變
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:盛名一時(shí)的BERT哪去了?這個(gè)問題的答案昭示了LLM范式的轉(zhuǎn)變
關(guān)鍵字:模型,編碼器,解碼器,目標(biāo),任務(wù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:Panda編碼器模型哪去了?如果 BERT 效果好,那為什么不擴(kuò)展它?編碼器 – 解碼器或僅編碼器模型怎么樣了?在大型語言模型(LLM)領(lǐng)域,現(xiàn)在是僅解碼器模型(如 GPT 系列模型)獨(dú)領(lǐng)的時(shí)代。那編碼器 – 解碼器或僅編碼器模型發(fā)展如何呢?為什么曾經(jīng)盛名一時(shí)的 BERT 卻漸漸少有人關(guān)注了?
近日,AI 創(chuàng)業(yè)公司 Reka 的首席科學(xué)家和聯(lián)合創(chuàng)始人 Yi Tay 發(fā)布了一篇博客文章,分享了他的看法。Yi Tay 在參與創(chuàng)立 Reka 之前曾在 Google Research 和谷歌大腦工作過三年多時(shí)間,參與過 PaLM、UL2、Flan-2、Bard 等著名 LLM 以及 PaLI-X 和 ViT-22B 等多模態(tài)模型的研發(fā)工作。以下為他的博客文章內(nèi)容。基礎(chǔ)簡介
總體上看,過去這些年的 LLM 模型架構(gòu)主要分為三大范式:僅編碼器模型(如 BERT)、編碼器 – 解碼器模型(如 T5)、僅解碼器模型(如 GPT 系列模型)。人們常常搞不清楚這些,并且對這些分類方法和架構(gòu)有所誤解。
首先要理解的一點(diǎn)是:編碼器 – 解碼器模型實(shí)際上也是自回歸模型。在編碼器 – 解碼
原文鏈接:盛名一時(shí)的BERT哪去了?這個(gè)問題的答案昭示了LLM范式的轉(zhuǎn)變
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡介: