中美 AI 創(chuàng)業(yè)者的閉門討論:DeepSeek-R1 之后,AI 創(chuàng)業(yè)的變化和新趨勢
垂直領(lǐng)域的Agent能力會有大提升。
原標(biāo)題:中美 AI 創(chuàng)業(yè)者的閉門討論:DeepSeek-R1 之后,AI 創(chuàng)業(yè)的變化和新趨勢
文章來源:Founder Park
內(nèi)容字數(shù):10936字
DeepSeek:2025年春節(jié)AI焦點與未來趨勢
2025年春節(jié)期間,DeepSeek成為AI領(lǐng)域的焦點,其App登頂蘋果商店免費榜,各大云廠商爭相部署其R1模型。本文總結(jié)了極客公園組織的閉門討論要點,探討DeepSeek的創(chuàng)新、成本優(yōu)勢、應(yīng)用前景及未來趨勢。
DeepSeek的創(chuàng)新之處
DeepSeek V3基座模型參數(shù)規(guī)模達671B,是目前開源最強模型之一。其R1模型的核心創(chuàng)新在于“反思能力”,通過強化學(xué)習(xí)(RL)實現(xiàn),推理能力與OpenAI o1相當(dāng),且代碼能力與OpenAI o3 mini不相上下。DeepSeek成功關(guān)鍵在于高度集成化的工程方案,有效降低了成本。其方法雖并非全新,但激進地結(jié)合使用,并精巧地系統(tǒng)設(shè)計,實現(xiàn)了顯著的性能優(yōu)化。
DeepSeek低成本的秘訣
DeepSeek模型稀疏度極高,推理時僅激活37B參數(shù),大幅降低資源消耗。其在軟件架構(gòu)上采用MoE架構(gòu),動態(tài)調(diào)整資源使用率,理論上可將成本壓縮至原來的1/256。在訓(xùn)練階段,DeepSeek摒棄了Tensor Parallelism,只使用Data Parallelism和Pipeline Parallelism,并進行精細的專家并行,從而繞過硬件限制,提高了訓(xùn)練效率,降低了成本。
Chatbot并非唯一AI入口
DeepSeek R1結(jié)合搜索功能,為用戶提供全新的體驗,這對于許多用戶而言是他們第一次接觸推理模型。未來,AI應(yīng)用型公司的競爭壁壘在于產(chǎn)品體驗,誰能提供更快速、更便捷、更舒適的功能,誰就能在市場中占據(jù)優(yōu)勢。
垂直場景AI落地加速
在垂直場景中,任務(wù)評估可通過規(guī)則系統(tǒng)完成,無需復(fù)雜的獎勵模型,因此7B級別模型即可快速得到可用結(jié)果。DeepSeek蒸餾后的中小模型在垂直領(lǐng)域,尤其是有明確答案的任務(wù)(如數(shù)學(xué)計算)中表現(xiàn)出色且成本可控。然而,對于主觀性較強的任務(wù),仍需進一步探索更優(yōu)的評估方法。
國產(chǎn)芯片助力推理算力
國產(chǎn)芯片在AI應(yīng)用領(lǐng)域有望追趕英偉達,其瓶頸在于流片。DeepSeek與華為的合作,也體現(xiàn)了國產(chǎn)芯片在穩(wěn)定供應(yīng)方面的優(yōu)勢。專注于AI應(yīng)用的國產(chǎn)芯片,有望在部分性能指標(biāo)上追趕英偉達。
更強大的Agent與跨應(yīng)用調(diào)用
未來,更強大的Agent將成為趨勢,通過結(jié)合規(guī)則模型和基礎(chǔ)模型迭代訓(xùn)練,并在特定領(lǐng)域?qū)崿F(xiàn)超人類智能。跨應(yīng)用調(diào)用能力也將成為熱點,但需要解決不同操作系統(tǒng)下的權(quán)限管理問題。
總而言之,DeepSeek的出現(xiàn)標(biāo)志著AI技術(shù)和應(yīng)用的顯著進步,其開源特性降低了AI應(yīng)用的門檻,推動了垂直領(lǐng)域AI的快速落地。未來,更強大的Agent、跨應(yīng)用調(diào)用能力以及更有效的訓(xùn)練方法將成為AI領(lǐng)域的研究熱點。
聯(lián)系作者
文章來源:Founder Park
作者微信:
作者簡介:來自極客公園,專注與科技創(chuàng)業(yè)者聊「真問題」。