本文回顧LLM的發展歷程,以2017年具有性意義的Transformer架構為起點。
原標題:最新「大語言模型簡史」整理!從Transformer(2017)到DeepSeek-R1(2025)
文章來源:智猩猩GenAI
內容字數:18150字
大型語言模型簡史:從Transformer (2017)到DeepSeek-R1 (2025)
本文回顧了大型語言模型(LLMs)從2017年Transformer架構誕生到2025年DeepSeek-R1的發展歷程。2025年初,我國推出的DeepSeek-R1引發了AI領域的巨大變革,本文將詳細闡述LLMs的演進。
1. 語言模型概述
1.1 大型語言模型 (LLMs) 是語言模型 (LMs) 的一個子集,其規模顯著更大,通常包含數十億個參數,從而在廣泛的任務中表現出卓越的性能。“LLM”一詞在GPT-3發布后才廣泛使用。
1.2 大多數LLMs以自回歸方式操作,根據前面的文本預測下一個字的概率分布。LLM通過解碼算法確定下一個輸出的字,例如貪婪搜索或隨機采樣。
1.3 LLMs的自回歸特性使其能夠基于前文提供的上下文逐詞生成文本,如同“文字接龍”游戲,推動了創意寫作、對話式AI等應用的發展。
2. Transformer (2017)
2.1 Vaswani等人于2017年提出的Transformer架構,解決了早期模型如RNN和LSTM在長程依賴性和順序處理方面的困難。其關鍵創新包括自注意力機制、多頭注意力、前饋網絡、層歸一化和位置編碼。這些創新使得在大型數據集上訓練大規模模型成為可能,并提高了全局上下文理解。
3. 預訓練Transformer模型時代 (2018–2020)
3.1 BERT (2018) 采用雙向訓練方法,同時從兩個方向捕獲上下文,在文本分類、命名實體識別等任務中表現出色。其關鍵創新包括掩碼語言建模和下一句預測。
3.2 GPT系列 (2018–2020) 專注于通過自回歸預訓練實現生成能力。GPT-2展示了令人印象深刻的零樣本能力,而GPT-3則憑借1750億參數,突破了大規模預訓練的界限,展示了顯著的少樣本和零樣本學習能力。
3.3 GPT模型的引入,特別是GPT-3,標志著AI的一個變革時代,展示了自回歸架構和生成能力的強大功能,證明了規模、數據和計算在實現最先進結果中的重要性。
4. 后訓練對齊:彌合AI與人類價值觀之間的差距 (2021–2022)
4.1 監督微調 (SFT) 和基于人類反饋的強化學習 (RLHF) 等技術被用來改善與人類意圖的一致性并減少幻覺。
4.2 RLHF 通過根據質量對模型生成的輸出進行排名,創建一個偏好數據集,用于訓練獎勵模型,指導LLM的微調,從而生成更符合人類偏好和期望的輸出。
4.3 ChatGPT (2022) 基于GPT-3.5和InstructGPT,擅長維持對話的上下文和連貫性,生成有用、誠實和無害的響應。
5. 多模態模型:連接文本、圖像及其他 (2023–2024)
5.1 GPT-4V 將GPT-4的語言能力與計算機視覺相結合,可以解釋圖像、生成標題等。
5.2 GPT-4o 整合了音頻和視頻輸入,在一個統一的表示空間中運行,可以轉錄音頻、描述視頻或將文本合成音頻。
6. 開源和開放權重模型 (2023–2024)
開放權重模型和開源模型的出現,使先進AI技術的訪問更加化,促進了社區驅動的創新。
7. 推理模型:從“系統1”到“系統2”思維的轉變 (2024)
7.1 OpenAI-o1 和 OpenAI-o3 采用了“長鏈思維”,能夠將復雜問題分解為更小的部分,批判性地評估其解決方案,并在復雜數學和編程任務中樹立了新的標桿。
8. 成本高效的推理模型:DeepSeek-R1 (2025)
8.1 DeepSeek-V3 (2024-12) 采用專家混合(MoE)架構,開發成本顯著降低,性能與頂級解決方案相媲美。
8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025-01) 利用先進的強化學習技術,在沒有巨額計算費用的情況下實現了高性能推理,其成本相比競爭對手低20到50倍。
8.3 DeepSeek-R1的引入挑戰了AI領域的既定規范,使先進LLMs得以“普及化”,并促進了一個更具競爭力的生態系統。
9. 結論
從Transformer到DeepSeek-R1,LLMs的演變標志著人工智能領域的一個性篇章。LLMs正逐步演變為多功能、多模態的推理系統,推動人工智能朝著更加包容和影響力深遠的方向邁進。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下賬號,專注于生成式人工智能,主要分享技術文章、論文成果與產品信息。