Lex Fridman 五小時聊 DeepSeek:一文看懂 DeepSeek 的創新與2025 AI 趨勢
中美 AI 競爭與國運。
原標題:Lex Fridman 五小時聊 DeepSeek:一文看懂 DeepSeek 的創新與2025 AI 趨勢
文章來源:Founder Park
內容字數:107785字
DeepSeek引發的AI熱議:Lex Fridman與專家深度對話
知名科技主播Lex Fridman近期邀請半導體分析公司SemiAnalysis運營總監Dylan Patel和艾倫人工智能研究所研究科學家Nathan Lambert,就DeepSeek及其開源模型V3和R1展開長達5小時的討論,內容涵蓋DeepSeek的創新、AI算力瓶頸、模型訓練和蒸餾、以及商業落地等多個方面。本文精選5萬字核心內容,濃縮要點如下:
1. DeepSeek模型的開源與創新
DeepSeek-V3是一個開源權重指令模型,類似ChatGPT;DeepSeek-R1則是其推理模型,采用寬松的MIT許可證,在開源程度上領先業界。DeepSeek在技術報告中詳細披露了訓練細節,包括在CUDA底層對GPU的優化,展現了其技術實力。
2. 預訓練與后訓練:模型訓練的兩個階段
模型訓練分為預訓練(學言規律)和后訓練(提升易用性、對齊等)兩個階段。后訓練包括指令微調、偏好微調(RLHF)以及強化微調等,DeepSeek-R1使用了更先進的強化學習技術,使其能夠展現推理過程。
3. DeepSeek低成本訓練的秘訣
DeepSeek通過混合專家模型(MoE)和潛在注意力(MLA)技術降低訓練成本。MoE模擬人腦機制,只激活部分參數,降低計算量;MLA則減少內存占用。DeepSeek甚至在CUDA底層進行了GPU優化,充分利用有限的算力資源。
4. R1的推理能力與用戶體驗
DeepSeek-R1在生成答案前會展現詳細的推理過程,讓用戶直觀了解模型的思考步驟,提升了用戶體驗,也引發了公眾對AI“意識”的討論。
5. 模型訓練的“All in”策略與挑戰
大型模型訓練如同“YOLO”(You Only Live Once)運行,需要大量實驗和資源投入。DeepSeek通過多次小規模實驗積累經驗,最終進行大規模訓練,這體現了其技術積累和風險承擔能力。
6. 出口管制的影響與AI應用普及
美國對華出口管制主要影響了中國AI應用的普及速度,而非完全阻止AI技術發展。DeepSeek的成功表明,即使在算力受限的情況下,中國仍然能夠訓練出先進的AI模型。
7. 模型對齊與審查:技術與倫理的挑戰
模型對齊可以在數據選擇、預訓練、后訓練等多個階段進行,但完全避免審查幾乎不可能。DeepSeek等模型的“審查”可能源于數據偏見或后訓練策略。
8. 模型蒸餾:行業慣例與倫理爭議
模型蒸餾是行業慣例,但使用其他公司模型輸出進行訓練是否違規,存在法律和倫理爭議。OpenAI等公司對模型輸出的控制力有限,而DeepSeek在效率提升方面的努力仍然值得肯定。
9. AI Agent的挑戰與前景
AI Agent的自主性和可靠性是主要挑戰。目前Agent應用的成功率有限,未來可能需要結合人工輔助,逐步提升可靠性,才能在開放環境中廣泛應用。
10. AGI競賽與未來展望
專家們普遍認為AGI的出現時間在2030年之后。AGI競賽并非“贏家通吃”,多家公司可能在不同領域取得成功。未來AI應用將更加多樣化,包括AI Agent、機器人技術、以及各行各業的自動化等。
總而言之,DeepSeek的出現標志著AI技術發展進入新的階段,開源與高效訓練成為重要趨勢。未來AI發展將持續帶來驚喜,但也面臨著倫理、社會等方面的挑戰,需要謹慎應對。
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。