最新「大語言模型簡史」整理！從Transformer（2017）到DeepSeek-R1（2025）

AIGC動態8個月前發布智猩猩GenAI

440 0 0

本文回顧LLM的發展歷程，以2017年具有性意義的Transformer架構為起點。

原標題：最新「大語言模型簡史」整理！從Transformer（2017）到DeepSeek-R1（2025）
文章來源：智猩猩GenAI
內容字數：18150字

大型語言模型簡史：從Transformer (2017)到DeepSeek-R1 (2025)

本文回顧了大型語言模型（LLMs）從2017年Transformer架構誕生到2025年DeepSeek-R1的發展歷程。2025年初，我國推出的DeepSeek-R1引發了AI領域的巨大變革，本文將詳細闡述LLMs的演進。

1. 語言模型概述

1.1 大型語言模型 (LLMs) 是語言模型 (LMs) 的一個子集，其規模顯著更大，通常包含數十億個參數，從而在廣泛的任務中表現出卓越的性能。“LLM”一詞在GPT-3發布后才廣泛使用。

1.2 大多數LLMs以自回歸方式操作，根據前面的文本預測下一個字的概率分布。LLM通過解碼算法確定下一個輸出的字，例如貪婪搜索或隨機采樣。

1.3 LLMs的自回歸特性使其能夠基于前文提供的上下文逐詞生成文本，如同“文字接龍”游戲，推動了創意寫作、對話式AI等應用的發展。

2. Transformer (2017)

2.1 Vaswani等人于2017年提出的Transformer架構，解決了早期模型如RNN和LSTM在長程依賴性和順序處理方面的困難。其關鍵創新包括自注意力機制、多頭注意力、前饋網絡、層歸一化和位置編碼。這些創新使得在大型數據集上訓練大規模模型成為可能，并提高了全局上下文理解。

3. 預訓練Transformer模型時代 (2018–2020)

3.1 BERT (2018) 采用雙向訓練方法，同時從兩個方向捕獲上下文，在文本分類、命名實體識別等任務中表現出色。其關鍵創新包括掩碼語言建模和下一句預測。

3.2 GPT系列 (2018–2020) 專注于通過自回歸預訓練實現生成能力。GPT-2展示了令人印象深刻的零樣本能力，而GPT-3則憑借1750億參數，突破了大規模預訓練的界限，展示了顯著的少樣本和零樣本學習能力。

3.3 GPT模型的引入，特別是GPT-3，標志著AI的一個變革時代，展示了自回歸架構和生成能力的強大功能，證明了規模、數據和計算在實現最先進結果中的重要性。

4. 后訓練對齊：彌合AI與人類價值觀之間的差距 (2021–2022)

4.1 監督微調 (SFT) 和基于人類反饋的強化學習 (RLHF) 等技術被用來改善與人類意圖的一致性并減少幻覺。

4.2 RLHF 通過根據質量對模型生成的輸出進行排名，創建一個偏好數據集，用于訓練獎勵模型，指導LLM的微調，從而生成更符合人類偏好和期望的輸出。

4.3 ChatGPT (2022) 基于GPT-3.5和InstructGPT，擅長維持對話的上下文和連貫性，生成有用、誠實和無害的響應。

5. 多模態模型：連接文本、圖像及其他 (2023–2024)

5.1 GPT-4V 將GPT-4的語言能力與計算機視覺相結合，可以解釋圖像、生成標題等。

5.2 GPT-4o 整合了音頻和視頻輸入，在一個統一的表示空間中運行，可以轉錄音頻、描述視頻或將文本合成音頻。

6. 開源和開放權重模型 (2023–2024)

開放權重模型和開源模型的出現，使先進AI技術的訪問更加化，促進了社區驅動的創新。

7. 推理模型：從“系統1”到“系統2”思維的轉變 (2024)

7.1 OpenAI-o1 和 OpenAI-o3 采用了“長鏈思維”，能夠將復雜問題分解為更小的部分，批判性地評估其解決方案，并在復雜數學和編程任務中樹立了新的標桿。

8. 成本高效的推理模型：DeepSeek-R1 (2025)

8.1 DeepSeek-V3 (2024-12) 采用專家混合（MoE）架構，開發成本顯著降低，性能與頂級解決方案相媲美。

8.2 DeepSeek-R1-Zero 和 DeepSeek-R1 (2025-01) 利用先進的強化學習技術，在沒有巨額計算費用的情況下實現了高性能推理，其成本相比競爭對手低20到50倍。

8.3 DeepSeek-R1的引入挑戰了AI領域的既定規范，使先進LLMs得以“普及化”，并促進了一個更具競爭力的生態系統。

9. 結論

從Transformer到DeepSeek-R1，LLMs的演變標志著人工智能領域的一個性篇章。LLMs正逐步演變為多功能、多模態的推理系統，推動人工智能朝著更加包容和影響力深遠的方向邁進。

聯系作者

文章來源：智猩猩GenAI
作者微信：
作者簡介：智猩猩旗下賬號，專注于生成式人工智能，主要分享技術文章、論文成果與產品信息。

閱讀原文

# AIGC動態 # Transformer架構演進 # 多模態大模型發展 # 大模型參數規模增長 # 大模型安全與倫理 # 大模型推理效率優化

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

最新「大語言模型簡史」整理！從Transformer（2017）到DeepSeek-R1（2025）

本文回顧LLM的發展歷程，以2017年具有性意義的Transformer架構為起點。

大型語言模型簡史：從Transformer (2017)到DeepSeek-R1 (2025)

1. 語言模型概述

2. Transformer (2017)

3. 預訓練Transformer模型時代 (2018–2020)

4. 后訓練對齊：彌合AI與人類價值觀之間的差距 (2021–2022)

5. 多模態模型：連接文本、圖像及其他 (2023–2024)

6. 開源和開放權重模型 (2023–2024)

7. 推理模型：從“系統1”到“系統2”思維的轉變 (2024)

8. 成本高效的推理模型：DeepSeek-R1 (2025)

9. 結論

聯系作者

部分國產芯片適配滿血版 DeepSeek，仍「遙遙無期」

19歲退學哈佛CS，這個00后兩年打造百億獨角獸！月收入5000萬，AI招聘官殺瘋了

相關文章

暫無評論

ChatGPT

玩虛擬模特？