AIGC動態歡迎閱讀
原標題:字節跳動李航 | 對大語言模型的若干思考…
關鍵字:模型,語言,序列,字節跳動,心智
文章來源:人工智能學家
內容字數:15693字
內容摘要:
來源:機器之心專欄
作者:ByteDance Research負責人李航本文闡述筆者對 LLM 的一些看法,主要觀點如下:
ChatGPT 的突破主要在于規模帶來的質變和模型方式的發明。
LLM 融合了實現人工智能的三條路徑。
LLM 的開發需要結合第三者體驗和第一者體驗。
LLM 能近似生成心智語言。
LLM 需要與多模態大模型結合,以產生對世界的認識。
LLM 本身不具備邏輯推理能力,需要在其基礎上增加推理能力。
1. LLM 強大之所在
1.1 LLM 的主要突破
ChatGPT 和 GPT4 為代表的 LLM 有以下主要手段 [1][2]。
模型:Transformer 擁有強大的表示能力,能對具有組合性(compositinality)的語言進行很好的表示和學習。
預訓練(pre-training):使用大規模文本數據進行語言建模(language modeling),學習進行的是數據壓縮,也就是單詞序列的生成概率最大化或預測誤差最小化。
監督微調 SFT(supervised fine tunning):學習的是輸入到輸出的映射,X→Y, 或者是輸入到輸出的映射及產出過
聯系作者
文章來源:人工智能學家
作者微信:AItists
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...