拾象科技閉門討論:86 條 DeepSeek 的關(guān)鍵思考
比技術(shù)更重要的是愿景。

原標題:拾象科技閉門討論:86 條 DeepSeek 的關(guān)鍵思考
文章來源:Founder Park
內(nèi)容字數(shù):18985字
DeepSeek:一場閉門討論會揭秘神秘東方力量
DeepSeek-R1 的橫空出世,迅速引發(fā)全球AI社區(qū)的關(guān)注,但關(guān)于DeepSeek 的高質(zhì)量信息卻相對匱乏。2025年1月26日,一場由拾象創(chuàng)始人兼CEO李廣密組織的DeepSeek閉門討論會,匯聚了數(shù)十位頂尖AI研究員、投資人和一線從業(yè)者,對DeepSeek的技術(shù)細節(jié)、組織文化及未來影響進行了深入探討。本文總結(jié)了該討論會的要點,旨在揭示DeepSeek的部分面紗。
1. DeepSeek的核心與優(yōu)勢
1. DeepSeek 創(chuàng)始人梁文鋒是核心人物,技術(shù)實力雄厚。2. DeepSeek 的成功在于率先復現(xiàn)MoE、o1等技術(shù),但仍有很大提升空間。3. DeepSeek 長上下文能力提升迅速,常規(guī)方法即可實現(xiàn)10K上下文窗口。4. DeepSeek 算力規(guī)模可能低于外界預期,注重合規(guī),未采購任何不合規(guī)GPU。5. DeepSeek 專注于單一方向(推理),放棄多模態(tài)等,將重點放在“push智能”上,而非單純服務(wù)于人,這可能是其成功的關(guān)鍵。6. DeepSeek 作為“黃埔軍校”,對人才培養(yǎng)貢獻巨大,其商業(yè)模式或與量化投資有關(guān)。7. DeepSeek在技術(shù)層面注重節(jié)約硬件成本,在多個擴展方向上都展現(xiàn)了成本控制的技巧。
2. 探索者與追趕者:算力與效率的博弈
8. AI發(fā)展類似階躍函數(shù),追趕者算力需求遠低于探索者。9. 探索者需要大量算力進行模型探索和算法創(chuàng)新,而追趕者更關(guān)注效率提升。10. 小公司因算力有限,更注重效率;大公司則更關(guān)注模型快速迭代和穩(wěn)定性。11. 國內(nèi)下一個追趕方向可能是多模態(tài),因為海外GPT-5遲遲未發(fā)布。
3. DeepSeek的技術(shù)細節(jié)
12. DeepSeek 最大的震撼在于無需進行大量有監(jiān)督微調(diào) (SFT),尤其在推理層面。13. DeepSeek-R1巧妙地利用RLHF生成數(shù)據(jù),再進行SFT蒸餾,提升了效率。14. DeepSeek 在數(shù)據(jù)標注上非常重視,這可能是其模型效率高的關(guān)鍵因素之一。15. 蒸餾技術(shù)雖然能提升效率,但可能導致模型多樣性下降,限制模型上限。16. DeepSeek 的過程獎勵機制 (Process Reward) 值得進一步研究,其有效性及避免獎勵劫持 (Reward Hack) 的方法仍需探索。17. DeepSeek對過程獎勵的探索,表明了對模型推理過程的關(guān)注,但過程監(jiān)督可能存在上限。
4. DeepSeek的影響與未來
18. DeepSeek 的出現(xiàn)挑戰(zhàn)了英偉達和OpenAI的敘事,引發(fā)了對算力需求變化的重新思考。19. DeepSeek 的開源策略對閉源模型構(gòu)成挑戰(zhàn),但兩者目前處于共存狀態(tài)。20. DeepSeek 的出圈提升了中國AI的國際影響力,縮短了與美國AI的差距。21. 未來AI發(fā)展可能呈現(xiàn)分化趨勢,新的架構(gòu)、RL算法和產(chǎn)品形態(tài)將不斷涌現(xiàn)。22. DeepSeek的成功,證明了在有限算力下,通過高效的工程能力和技術(shù)創(chuàng)新,同樣可以取得突破性進展。23. DeepSeek 的長期影響有待觀察,但其對AI領(lǐng)域帶來的沖擊是毋庸置疑的。
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創(chuàng)業(yè)者聊「真問題」。

粵公網(wǎng)安備 44011502001135號