盛名一時(shí)的BERT哪去了？這個(gè)問題的答案昭示了LLM范式的轉(zhuǎn)變

AIGC動(dòng)態(tài)10個(gè)月前發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：盛名一時(shí)的BERT哪去了？這個(gè)問題的答案昭示了LLM范式的轉(zhuǎn)變
關(guān)鍵字：模型,編碼器,解碼器,目標(biāo),任務(wù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

機(jī)器之心報(bào)道
編輯：Panda編碼器模型哪去了？如果 BERT 效果好，那為什么不擴(kuò)展它？編碼器 – 解碼器或僅編碼器模型怎么樣了？在大型語言模型（LLM）領(lǐng)域，現(xiàn)在是僅解碼器模型（如 GPT 系列模型）獨(dú)領(lǐng)的時(shí)代。那編碼器 – 解碼器或僅編碼器模型發(fā)展如何呢？為什么曾經(jīng)盛名一時(shí)的 BERT 卻漸漸少有人關(guān)注了？
近日，AI 創(chuàng)業(yè)公司 Reka 的首席科學(xué)家和聯(lián)合創(chuàng)始人 Yi Tay 發(fā)布了一篇博客文章，分享了他的看法。Yi Tay 在參與創(chuàng)立 Reka 之前曾在 Google Research 和谷歌大腦工作過三年多時(shí)間，參與過 PaLM、UL2、Flan-2、Bard 等著名 LLM 以及 PaLI-X 和 ViT-22B 等多模態(tài)模型的研發(fā)工作。以下為他的博客文章內(nèi)容。基礎(chǔ)簡介
總體上看，過去這些年的 LLM 模型架構(gòu)主要分為三大范式：僅編碼器模型（如 BERT）、編碼器 – 解碼器模型（如 T5）、僅解碼器模型（如 GPT 系列模型）。人們常常搞不清楚這些，并且對這些分類方法和架構(gòu)有所誤解。
首先要理解的一點(diǎn)是：編碼器 – 解碼器模型實(shí)際上也是自回歸模型。在編碼器 – 解碼

原文鏈接：盛名一時(shí)的BERT哪去了？這個(gè)問題的答案昭示了LLM范式的轉(zhuǎn)變