挑戰(zhàn)Transformer,華為諾亞新架構(gòu)盤古π來了,已有1B、7B模型
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:挑戰(zhàn)Transformer,華為諾亞新架構(gòu)盤古π來了,已有1B、7B模型
關(guān)鍵字:模型,盤古,架構(gòu),特征,華為
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):10194字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部5 年前,Transformer 在國際神經(jīng)信息處理大會 NeurIPS 2017 發(fā)表,后續(xù)其作為核心網(wǎng)絡(luò)架構(gòu)被廣泛用于自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域。
1 年前,一項(xiàng)重大的創(chuàng)新引起了人們的廣泛關(guān)注,那就是 ChatGPT。這個(gè)模型不僅能夠執(zhí)行復(fù)雜的 NLP 任務(wù),還能以人類對話的方式與人類進(jìn)行互動(dòng),產(chǎn)生了深遠(yuǎn)的影響。
1 年以來,“百模大戰(zhàn)” 在業(yè)界激烈開展,誕生了如 LLaMA、ChatGLM 和 Baichuan 等開源大模型,推動(dòng)了 LLM 領(lǐng)域的快速發(fā)展。除了通用 LLM,為了支撐更多行業(yè)的應(yīng)用和商業(yè)變現(xiàn),很多行業(yè)垂域大模型也涌現(xiàn)出來,特別是金融、法律和醫(yī)療等領(lǐng)域尤為活躍。
開發(fā)一個(gè)卓越的 LLM,就如同進(jìn)行一項(xiàng)復(fù)雜的系統(tǒng)工程,其中包括數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清理、模型架構(gòu)設(shè)計(jì)、集群通信以及優(yōu)化器的選擇。在 2022-2023 年的最新項(xiàng)目中,大部分大模型都是基于標(biāo)準(zhǔn)的 Transformer 架構(gòu)進(jìn)行開發(fā),主要在數(shù)據(jù)工程、訓(xùn)練策略上進(jìn)行不同的優(yōu)化。模型架構(gòu)設(shè)計(jì),作為其中至關(guān)重要的一環(huán),決定了 LLM 的最大性能潛力,并沒有在業(yè)界引起足夠的重視。
近日,來
原文鏈接:挑戰(zhàn)Transformer,華為諾亞新架構(gòu)盤古π來了,已有1B、7B模型
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺