圍繞 DeepSeek 的謠言實在太多了。
原標題:自有歪果仁為DeepSeek「辯經」:揭穿圍繞DeepSeek的謠言
文章來源:機器之心
內容字數:9642字
DeepSeek:與誤解
本文總結了Tanishq Mathew Abraham針對DeepSeek及其開源模型R1的諸多誤解進行的反駁,為讀者提供更清晰的認知。
1. DeepSeek并非突然出現
作者指出,DeepSeek并非一夜之間冒出的公司,早在R1發布前幾個月就已預告,并在2023年11月發布了第一個開源模型DeepSeek-Coder。其發展速度在AI領域屬于正常范疇,并非可疑。
2. 訓練成本并非虛報
關于DeepSeek僅花費600萬美元訓練模型的質疑,作者解釋了該數字源自DeepSeek-V3的論文,而R1是在V3基礎上進行強化學習訓練,額外成本有限。作者認為,基于GPU成本、數據集規模和模型規模的分析,該估算結果合理。同時,其他AI實驗室在實驗和人員薪資方面的額外支出往往被忽略,導致比較不公平。
3. 成本低并不意味著浪費
DeepSeek的高訓練效率并不意味著其他美國AGI公司在浪費錢。作者解釋了AI領域的擴展定律(Scaling Laws),即更多的計算資源通常會帶來更好的性能。高效的模型能用更少的資源達到相同效果,但更多的資源仍然能帶來更好的結果。AGI公司對擴展定律的長期有效性抱有信心,因此持續投入更多資源是合理的。
4. DeepSeek并非沒有創新
作者列舉了DeepSeek在模型設計和訓練方面的創新,包括Multi-latent注意力機制(MHA)、GRPO強化學習算法和DualPipe多GPU訓練方法。這些創新都已開源,對AI社區有益。
5. DeepSeek并非單純抄襲ChatGPT
關于DeepSeek從ChatGPT“蒸餾”知識的說法,作者認為這種說法過于簡單化,忽略了DeepSeek在工程、效率和架構方面的實際創新。即使DeepSeek使用了ChatGPT生成的文本進行訓練,也并不意味著其成就因此被減損。
6. 中美AI競爭加劇
作者認為,DeepSeek的出現使得中國在AI領域的競爭力更加不容忽視,但美國頂尖AI實驗室仍保持領先優勢。中美兩國都在AI研發上投入巨資,競爭將持續加劇。開源技術分享是否會帶來劣勢,目前尚不明確。
7. 結論
作者總結道,一部分人試圖淡化DeepSeek的成就,而另一些人則反應過度。OpenAI等公司仍處于領先地位,但DeepSeek的R1模型確實令人印象深刻,其成就值得肯定。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺