自有歪果仁為DeepSeek「辯經(jīng)」:揭穿圍繞DeepSeek的謠言
圍繞 DeepSeek 的謠言實在太多了。
原標題:自有歪果仁為DeepSeek「辯經(jīng)」:揭穿圍繞DeepSeek的謠言
文章來源:機器之心
內(nèi)容字數(shù):9642字
DeepSeek:與誤解
本文總結(jié)了Tanishq Mathew Abraham針對DeepSeek及其開源模型R1的諸多誤解進行的反駁,為讀者提供更清晰的認知。
1. DeepSeek并非突然出現(xiàn)
作者指出,DeepSeek并非一夜之間冒出的公司,早在R1發(fā)布前幾個月就已預告,并在2023年11月發(fā)布了第一個開源模型DeepSeek-Coder。其發(fā)展速度在AI領域?qū)儆谡7懂牐⒎强梢伞?/p>
2. 訓練成本并非虛報
關于DeepSeek僅花費600萬美元訓練模型的質(zhì)疑,作者解釋了該數(shù)字源自DeepSeek-V3的論文,而R1是在V3基礎上進行強化學習訓練,額外成本有限。作者認為,基于GPU成本、數(shù)據(jù)集規(guī)模和模型規(guī)模的分析,該估算結(jié)果合理。同時,其他AI實驗室在實驗和人員薪資方面的額外支出往往被忽略,導致比較不公平。
3. 成本低并不意味著浪費
DeepSeek的高訓練效率并不意味著其他美國AGI公司在浪費錢。作者解釋了AI領域的擴展定律(Scaling Laws),即更多的計算資源通常會帶來更好的性能。高效的模型能用更少的資源達到相同效果,但更多的資源仍然能帶來更好的結(jié)果。AGI公司對擴展定律的長期有效性抱有信心,因此持續(xù)投入更多資源是合理的。
4. DeepSeek并非沒有創(chuàng)新
作者列舉了DeepSeek在模型設計和訓練方面的創(chuàng)新,包括Multi-latent注意力機制(MHA)、GRPO強化學習算法和DualPipe多GPU訓練方法。這些創(chuàng)新都已開源,對AI社區(qū)有益。
5. DeepSeek并非單純抄襲ChatGPT
關于DeepSeek從ChatGPT“蒸餾”知識的說法,作者認為這種說法過于簡單化,忽略了DeepSeek在工程、效率和架構(gòu)方面的實際創(chuàng)新。即使DeepSeek使用了ChatGPT生成的文本進行訓練,也并不意味著其成就因此被減損。
6. 中美AI競爭加劇
作者認為,DeepSeek的出現(xiàn)使得中國在AI領域的競爭力更加不容忽視,但美國頂尖AI實驗室仍保持領先優(yōu)勢。中美兩國都在AI研發(fā)上投入巨資,競爭將持續(xù)加劇。開源技術(shù)分享是否會帶來劣勢,目前尚不明確。
7. 結(jié)論
作者總結(jié)道,一部分人試圖淡化DeepSeek的成就,而另一些人則反應過度。OpenAI等公司仍處于領先地位,但DeepSeek的R1模型確實令人印象深刻,其成就值得肯定。
聯(lián)系作者
文章來源:機器之心
作者微信:
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務平臺