拾象科技閉門討論:86 條 DeepSeek 的關鍵思考
比技術更重要的是愿景。
原標題:拾象科技閉門討論:86 條 DeepSeek 的關鍵思考
文章來源:Founder Park
內容字數:18985字
DeepSeek:一場閉門討論會揭秘神秘東方力量
DeepSeek-R1 的橫空出世,迅速引發全球AI社區的關注,但關于DeepSeek 的高質量信息卻相對匱乏。2025年1月26日,一場由拾象創始人兼CEO李廣密組織的DeepSeek閉門討論會,匯聚了數十位頂尖AI研究員、投資人和一線從業者,對DeepSeek的技術細節、組織文化及未來影響進行了深入探討。本文總結了該討論會的要點,旨在揭示DeepSeek的部分面紗。
1. DeepSeek的核心與優勢
1. DeepSeek 創始人梁文鋒是核心人物,技術實力雄厚。2. DeepSeek 的成功在于率先復現MoE、o1等技術,但仍有很大提升空間。3. DeepSeek 長上下文能力提升迅速,常規方法即可實現10K上下文窗口。4. DeepSeek 算力規模可能低于外界預期,注重合規,未采購任何不合規GPU。5. DeepSeek 專注于單一方向(推理),放棄多模態等,將重點放在“push智能”上,而非單純服務于人,這可能是其成功的關鍵。6. DeepSeek 作為“黃埔軍校”,對人才培養貢獻巨大,其商業模式或與量化投資有關。7. DeepSeek在技術層面注重節約硬件成本,在多個擴展方向上都展現了成本控制的技巧。
2. 探索者與追趕者:算力與效率的博弈
8. AI發展類似階躍函數,追趕者算力需求遠低于探索者。9. 探索者需要大量算力進行模型探索和算法創新,而追趕者更關注效率提升。10. 小公司因算力有限,更注重效率;大公司則更關注模型快速迭代和穩定性。11. 國內下一個追趕方向可能是多模態,因為海外GPT-5遲遲未發布。
3. DeepSeek的技術細節
12. DeepSeek 最大的震撼在于無需進行大量有監督微調 (SFT),尤其在推理層面。13. DeepSeek-R1巧妙地利用RLHF生成數據,再進行SFT蒸餾,提升了效率。14. DeepSeek 在數據標注上非常重視,這可能是其模型效率高的關鍵因素之一。15. 蒸餾技術雖然能提升效率,但可能導致模型多樣性下降,限制模型上限。16. DeepSeek 的過程獎勵機制 (Process Reward) 值得進一步研究,其有效性及避免獎勵劫持 (Reward Hack) 的方法仍需探索。17. DeepSeek對過程獎勵的探索,表明了對模型推理過程的關注,但過程監督可能存在上限。
4. DeepSeek的影響與未來
18. DeepSeek 的出現挑戰了英偉達和OpenAI的敘事,引發了對算力需求變化的重新思考。19. DeepSeek 的開源策略對閉源模型構成挑戰,但兩者目前處于共存狀態。20. DeepSeek 的出圈提升了中國AI的國際影響力,縮短了與美國AI的差距。21. 未來AI發展可能呈現分化趨勢,新的架構、RL算法和產品形態將不斷涌現。22. DeepSeek的成功,證明了在有限算力下,通過高效的工程能力和技術創新,同樣可以取得突破性進展。23. DeepSeek 的長期影響有待觀察,但其對AI領域帶來的沖擊是毋庸置疑的。
聯系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創業者聊「真問題」。