字節(jié)跳動李航 | 對大語言模型的若干思考…

AIGC動態(tài)2年前 (2023)發(fā)布人工智能學(xué)家

字節(jié)跳動李航 | 對大語言模型的若干思考...

AIGC動態(tài)歡迎閱讀

原標(biāo)題：字節(jié)跳動李航 | 對大語言模型的若干思考…
關(guān)鍵字：模型,語言,序列,字節(jié)跳動,心智
文章來源：人工智能學(xué)家
內(nèi)容字?jǐn)?shù)：15693字

內(nèi)容摘要：

來源：機器之心專欄
作者：ByteDance Research負(fù)責(zé)人李航本文闡述筆者對 LLM 的一些看法，主要觀點如下：
ChatGPT 的突破主要在于規(guī)模帶來的質(zhì)變和模型方式的發(fā)明。
LLM 融合了實現(xiàn)人工智能的三條路徑。
LLM 的開發(fā)需要結(jié)合第三者體驗和第一者體驗。
LLM 能近似生成心智語言。
LLM 需要與多模態(tài)大模型結(jié)合，以產(chǎn)生對世界的認(rèn)識。
LLM 本身不具備邏輯推理能力，需要在其基礎(chǔ)上增加推理能力。
1. LLM 強大之所在
1.1 LLM 的主要突破
ChatGPT 和 GPT4 為代表的 LLM 有以下主要手段 [1][2]。
模型：Transformer 擁有強大的表示能力，能對具有組合性（compositinality）的語言進行很好的表示和學(xué)習(xí)。
預(yù)訓(xùn)練（pre-training）：使用大規(guī)模文本數(shù)據(jù)進行語言建模（language modeling），學(xué)習(xí)進行的是數(shù)據(jù)壓縮，也就是單詞序列的生成概率最大化或預(yù)測誤差最小化。
監(jiān)督微調(diào) SFT（supervised fine tunning）：學(xué)習(xí)的是輸入到輸出的映射，X→Y, 或者是輸入到輸出的映射及產(chǎn)出過

原文鏈接：字節(jié)跳動李航 | 對大語言模型的若干思考…