原標題:DeepSeek利空算力?
文章來源:人工智能學家
內容字數:10662字
幻方模型與AI算力競爭:一場開源的勝利
本文總結分析了幻方DeepSeek模型(特別是v3和r1)對AI算力競爭格局的影響,以及開源模型與閉源模型的博弈。文章指出,單純關注訓練成本的數字具有誤導性,需要從多個維度進行綜合考量。
訓練成本的:遠不止550萬美元
廣泛流傳的550萬美元僅指DeepSeek v3的正式訓練成本,并非其全部研發成本。這筆費用甚至只是實際成本的一小部分,因為前期研究、算法迭代、數據生成(例如使用幻方自己的r1模型生成數據)等成本并未包含在內。開源模型的探索階段必然伴隨資源浪費,而閉源模型則可以“站在巨人肩膀上”,節約大量成本。
算力效率的指數級提升
隨著算法進步(如FP8、混合MoE)、算力通縮以及模型蒸餾等技術的應用,訓練同一代模型所需的算力呈指數級下降。這使得后發追趕者可以以更低的成本獲得與前沿探索者相近的結果。幻方r1的訓練成本必然高于v3,但這并不代表其整體研發成本更高,因為效率的提升抵消了部分成本。
降本增效并非實驗室的最終目標
訓練效率的提升并不會減少實驗室的整體投入,反而會促使他們利用更高效率去追求更大的收益,從而榨取更多算力。幻方在基礎設施優化和提前囤卡的情況下仍然缺卡,說明算力需求的增長速度遠超成本下降速度。北美一些實驗室雖然投入更多,但最終目標并非單純降本增效,而是通過規模化優勢攫取更大的智能提升。
開源的勝利與閉源的困境
幻方代表了開源模型對閉源模型的一次勝利。開源社區的繁榮迅速轉化為模型的進步,反之,那些跑不過開源模型的閉源公司只能被迫倒閉、轉型或轉向開源。中國市場已經提前經歷了這一過程,而如今,中國的開源模型也開始對北美閉源模型形成沖擊。如果一家公司無法超越現有開源模型,其API價值將大幅縮水。
推理成本的性降低
相比訓練成本,幻方在推理成本上的降低更為顯著。DeepSeek架構的兼容性強,易于支持各種類型的顯卡,這降低了推理成本,并推動了應用的繁榮,最終反而會拉動更大的算力需求。這與早期昂貴的閉源模型形成了鮮明對比,并預示著未來LLM應用生態的繁榮。
未來:算力才是真正的決勝因素
北美CSP的巨額投資并非完全用于模型訓練,更多用于自身業務需求和推理業務增長。微軟已經開始轉向回報更確定的推理業務。雖然過去在探索性訓練上的投入可能存在浪費,但開源的繁榮最終會利好這些“中間商”。未來,算力將成為AI發展的核心驅動力,而那些能夠高效利用算力的模型和公司將最終勝出。
總而言之,對AI算力競爭的評估不能僅局限于訓練成本的數字比較,更要關注算力效率的提升、開源與閉源的博弈以及推理成本的降低。最終,擁有更先進的算法、更強大的算力以及更有效的應用生態將成為AI領域的勝負關鍵。
聯系作者
文章來源:人工智能學家
作者微信:
作者簡介:致力成為權威的人工智能科技媒體和前沿科技研究機構