預(yù)訓(xùn)練卷到頭了,推理卻是一片藍海
就在剛剛結(jié)束的 NeurIPS 2024 上,OpenAI 前首席科學(xué)家、聯(lián)合創(chuàng)始人 Ilya 提到“預(yù)訓(xùn)練即將終結(jié)”,“接下來將是超級智能:agent、推理、理解和自我意識。”從商業(yè)價值的角度看,盡管大模型技術(shù)的發(fā)展進步值得欣喜,但對投資者而言,如何帶來商業(yè)價值才是他們最為關(guān)注的。Ilya 提到的推理,也被認(rèn)為很具商業(yè)潛力。近期,來自紐約的風(fēng)投專家 Eric Flaningam 對AI 模型推理(Inference)的技術(shù)現(xiàn)狀、市場格局和發(fā)展趨勢進行了全面梳理,旨在從日新月異的技術(shù)變革中捕捉最具投資潛力的機會點。什么是“模型推理”(熟悉的讀者可以跳過)模型推理的簡單解釋簡單來說,如果把 AI 模型比作一個”學(xué)生”,那么:模型訓(xùn)練就是老師帶著學(xué)生反復(fù)學(xué)習(xí)、練習(xí),讓模型從海量數(shù)據(jù)中總結(jié)規(guī)律、積累“知識”的過程;這個過程需要消耗大量的計算資源。模型推理則是學(xué)生運用所學(xué),針對新輸入的數(shù)據(jù)給出判斷、預(yù)測、決策等反饋的過程。這里則是用戶實際使用這個模型(“學(xué)生”)的過程?!坝?xùn)練”是在教會模型,“推理”是在使用模型模型推理最關(guān)注什么從用戶的角度講,推理性能的關(guān)鍵在于:效果好壞:模型給出的反饋是否準(zhǔn)確、有效,能否滿足實際需求;交互延遲:從用戶提出請求到模型給出響應(yīng),中間的時間延遲同樣關(guān)乎用戶體驗。從技術(shù)實現(xiàn)的角度看,除了滿足用戶體驗需求之外,還需要關(guān)注:硬件依賴:推理過程對算力硬件(如 GPU)有多大依賴,能否靈活適配多種硬件;資源利用率:推理任務(wù)能否充分利用硬件算力,提高單位成本的效益;部署靈活性:能否方便地將模型部署到云端或邊緣端,甚至直接在終端設(shè)備上執(zhí)行推理。模型推理的 Scaling LawOpenAI o1 模型的發(fā)布取得了驚艷的效果,而效果變好的同時,模型的反應(yīng)時間(推理時間)也有了明顯的延遲,這讓模型推理的研究首次受到關(guān)注。大多數(shù)大模型推理(Inference)的計算量占比很小,而 OpenAI o1(草莓模型)的出現(xiàn),從推理側(cè)進行優(yōu)化,提升模型性能的同時也增加了推理的計算量。這是否意味著新的 Scaling Law(規(guī)律):模型 “思考” 的時間越長,它就會越準(zhǔn)確?o1 is explicitly trained on how to solve problems, and second, o1 is designed to generate multiple problem-solving streams at inference time, choose the best one, and iterate through each step in the process when it realizes it made a mistake. That’s why it got the crossword puzzle right — it just took a really long time.o1 經(jīng)過準(zhǔn)確地訓(xùn)練以掌握解決問題的方法,o1 的設(shè)計邏輯是在推理時生成多個問題解決方案,并選擇最好的一個,而且在意識到犯錯時能在整個過程的任意步驟中進行修正。這就是它能正確解決字謎難題的原因 —— 只是花費了非常長的時間。模型推理的競爭格局盡管各大公司在樂此不疲的卷大模型的研發(fā),但最終真正面向用戶并帶來商業(yè)價值的還是模型推理。如今的模型推理市場也已經(jīng)逐漸繁榮,從上游的算力硬件,到中游的推理服務(wù),再到下游的行業(yè)應(yīng)用,都有眾多玩家爭相角逐。Flaningam 將推理的提供方式劃分為幾個主要陣營:基礎(chǔ)模型 API:大模型提供商開放的 API 接口。盡管最簡單易用,但因為模型對用戶來說完全黑盒,因此調(diào)整的靈活性最低。長期來看,使用成本也最高;推理服務(wù)代理運營:提供托管推理服務(wù),用戶可以在平臺上選用基礎(chǔ)模型,也可以部署開源模型進行微調(diào),是易用性和靈活性之間很好的權(quán)衡;AI 云平臺:提供 GPU 算力租用和維護,以及部分推理的優(yōu)化服務(wù)。用戶可以高度定制模型和部署方案,但需要更多的技術(shù)投入和運維成本;AI 芯片廠商:以英偉達、AMD 為代表,提供通用 GPU 芯片。企業(yè)購買芯片后,可靈活自建推理服務(wù)集群,并針對特定任務(wù)深度調(diào)優(yōu)。專業(yè)門檻和前期投入最高,但理論上后期能實現(xiàn)極致性價比。不同推理提供方式的國外玩家:API、云服務(wù)(代理運營、AI 云平臺)、硬件廠商可以看到,推理已成為眾多科技公司爭相布局的新藍海。隨著算力成本的持續(xù)下降和應(yīng)用規(guī)模的爆發(fā)增長,推理賽道未來有望迎來井噴式發(fā)展。推理價值的多維博弈價值總是流向稀缺資源。在復(fù)雜的推理市場中,價值的流向取決于供給和需求的動態(tài)博弈。放眼當(dāng)下,推理的商業(yè)價值很可能會在供給和需求的多重博弈中被重新洗牌。具體而言,可以從以下三個方面著重分析:一方面,隨著大模型不斷突破性能天花板,對推理的規(guī)模、復(fù)雜度也提出了越來越高的要求。這意味著擁有頂尖算力、先進算法、高效架構(gòu)的頭部玩家將在競爭中占據(jù)優(yōu)勢,并有望率先盈利??梢哉f,先發(fā)優(yōu)勢和技術(shù)壁壘是價值的“稀缺資源”,將吸引更多的資本投入。另一方面,行業(yè)應(yīng)用的廣度、深度決定了推理的需求曲線。如果 OpenAI、微軟、谷歌等(國內(nèi)如 BAT、字節(jié)等)“超級獨角獸”壟斷了應(yīng)用市場的大部分份額,那么價值可能更多地向基礎(chǔ)設(shè)施層傾斜。相反,如果越來越多的企業(yè),哪怕是初創(chuàng)公司、小微企業(yè),也能借助日益成熟完善的 AI 工具和平臺,開發(fā)出有競爭力的 AI 應(yīng)用,那么專注于推理服務(wù)的供應(yīng)商將有機會爭奪更多市場蛋糕。這種情況下,“應(yīng)用創(chuàng)新”和“市場空白”成為了新的稀缺資源。此外,隨著技術(shù)進步,設(shè)備端推理(邊緣計算)也將是一個潛在的增量市場。一旦小模型、端側(cè)芯片的能力能滿足終端用戶的基本使用需求,邊緣端推理的發(fā)展空間可能被迅速打開。到那時,或許“端云協(xié)同”和“算力下沉”或許又會成為大模型競爭的新的制勝法寶。邊緣計算能夠降低公司計算集群的資本支出(CapEx)和運營支出(OpEx),消費者也能獲得本地推理帶來的低時延和更好的數(shù)據(jù)安全保障等諸多好處。總結(jié)AI 推理是大模型商業(yè)化的關(guān)鍵一環(huán)。隨著技術(shù)突破、市場爆發(fā),AI 推理的商業(yè)價值正在多維博弈中不斷重塑。當(dāng)下來看,擁有頂尖算力和架構(gòu)優(yōu)勢的頭部玩家,毫無疑問在占據(jù)先發(fā)優(yōu)勢。但放眼將來,端云協(xié)同、算力下沉很可能帶來新的增量。對于投資者而言,在洞察技術(shù)趨勢的同時,把握行業(yè)發(fā)展的節(jié)奏也至關(guān)重要。需要在技術(shù)趨勢、行業(yè)格局、市場容量等多個維度權(quán)衡利弊,審時度勢地布局價值高地。注:本文不構(gòu)成投資建議Eric Flaningam 個人主頁:https://www.linkedin.com/in/ericflaningam/)參考文獻https://substack.com/@ericflaningam/p-152106163https://youtu.be/WQQdd6qGxNs?si=FRb74Im5XNRBWykKhttps://youtu.be/WQQdd6qGxNs?si=FRb74Im5XNRBWykK

粵公網(wǎng)安備 44011502001135號