字節(jié)跳動李航 | 對大語言模型的若干思考…
AIGC動態(tài)歡迎閱讀
原標(biāo)題:字節(jié)跳動李航 | 對大語言模型的若干思考…
關(guān)鍵字:模型,語言,序列,字節(jié)跳動,心智
文章來源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):15693字
內(nèi)容摘要:
來源:機器之心專欄
作者:ByteDance Research負(fù)責(zé)人李航本文闡述筆者對 LLM 的一些看法,主要觀點如下:
ChatGPT 的突破主要在于規(guī)模帶來的質(zhì)變和模型方式的發(fā)明。
LLM 融合了實現(xiàn)人工智能的三條路徑。
LLM 的開發(fā)需要結(jié)合第三者體驗和第一者體驗。
LLM 能近似生成心智語言。
LLM 需要與多模態(tài)大模型結(jié)合,以產(chǎn)生對世界的認(rèn)識。
LLM 本身不具備邏輯推理能力,需要在其基礎(chǔ)上增加推理能力。
1. LLM 強大之所在
1.1 LLM 的主要突破
ChatGPT 和 GPT4 為代表的 LLM 有以下主要手段 [1][2]。
模型:Transformer 擁有強大的表示能力,能對具有組合性(compositinality)的語言進行很好的表示和學(xué)習(xí)。
預(yù)訓(xùn)練(pre-training):使用大規(guī)模文本數(shù)據(jù)進行語言建模(language modeling),學(xué)習(xí)進行的是數(shù)據(jù)壓縮,也就是單詞序列的生成概率最大化或預(yù)測誤差最小化。
監(jiān)督微調(diào) SFT(supervised fine tunning):學(xué)習(xí)的是輸入到輸出的映射,X→Y, 或者是輸入到輸出的映射及產(chǎn)出過
原文鏈接:字節(jié)跳動李航 | 對大語言模型的若干思考…
聯(lián)系作者
文章來源:人工智能學(xué)家
作者微信:AItists
作者簡介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機構(gòu)