挑戰(zhàn)Transformer，華為諾亞新架構(gòu)盤古π來了，已有1B、7B模型

AIGC動(dòng)態(tài)2年前 (2023)發(fā)布機(jī)器之心

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：挑戰(zhàn)Transformer，華為諾亞新架構(gòu)盤古π來了，已有1B、7B模型
關(guān)鍵字：模型,盤古,架構(gòu),特征,華為
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：10194字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部5 年前，Transformer 在國際神經(jīng)信息處理大會 NeurIPS 2017 發(fā)表，后續(xù)其作為核心網(wǎng)絡(luò)架構(gòu)被廣泛用于自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域。
1 年前，一項(xiàng)重大的創(chuàng)新引起了人們的廣泛關(guān)注，那就是 ChatGPT。這個(gè)模型不僅能夠執(zhí)行復(fù)雜的 NLP 任務(wù)，還能以人類對話的方式與人類進(jìn)行互動(dòng)，產(chǎn)生了深遠(yuǎn)的影響。
1 年以來，“百模大戰(zhàn)” 在業(yè)界激烈開展，誕生了如 LLaMA、ChatGLM 和 Baichuan 等開源大模型，推動(dòng)了 LLM 領(lǐng)域的快速發(fā)展。除了通用 LLM，為了支撐更多行業(yè)的應(yīng)用和商業(yè)變現(xiàn)，很多行業(yè)垂域大模型也涌現(xiàn)出來，特別是金融、法律和醫(yī)療等領(lǐng)域尤為活躍。
開發(fā)一個(gè)卓越的 LLM，就如同進(jìn)行一項(xiàng)復(fù)雜的系統(tǒng)工程，其中包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清理、模型架構(gòu)設(shè)計(jì)、集群通信以及優(yōu)化器的選擇。在 2022-2023 年的最新項(xiàng)目中，大部分大模型都是基于標(biāo)準(zhǔn)的 Transformer 架構(gòu)進(jìn)行開發(fā)，主要在數(shù)據(jù)工程、訓(xùn)練策略上進(jìn)行不同的優(yōu)化。模型架構(gòu)設(shè)計(jì)，作為其中至關(guān)重要的一環(huán)，決定了 LLM 的最大性能潛力，并沒有在業(yè)界引起足夠的重視。
近日，來

原文鏈接：挑戰(zhàn)Transformer，華為諾亞新架構(gòu)盤古π來了，已有1B、7B模型