預(yù)訓(xùn)練卷到頭了，推理卻是一片藍海

就在剛剛結(jié)束的 NeurIPS 2024 上，OpenAI 前首席科學(xué)家、聯(lián)合創(chuàng)始人 Ilya 提到“預(yù)訓(xùn)練即將終結(jié)”，“接下來將是超級智能：agent、推理、理解和自我意識。”從商業(yè)價值的角度看，盡管大模型技術(shù)的發(fā)展進步值得欣喜，但對投資者而言，如何帶來商業(yè)價值才是他們最為關(guān)注的。Ilya 提到的推理，也被認(rèn)為很具商業(yè)潛力。近期，來自紐約的風(fēng)投專家 Eric Flaningam 對AI 模型推理(Inference)的技術(shù)現(xiàn)狀、市場格局和發(fā)展趨勢進行了全面梳理，旨在從日新月異的技術(shù)變革中捕捉最具投資潛力的機會點。什么是“模型推理”（熟悉的讀者可以跳過）模型推理的簡單解釋簡單來說，如果把 AI 模型比作一個”學(xué)生”，那么：模型訓(xùn)練就是老師帶著學(xué)生反復(fù)學(xué)習(xí)、練習(xí)，讓模型從海量數(shù)據(jù)中總結(jié)規(guī)律、積累“知識”的過程；這個過程需要消耗大量的計算資源。模型推理則是學(xué)生運用所學(xué)，針對新輸入的數(shù)據(jù)給出判斷、預(yù)測、決策等反饋的過程。這里則是用戶實際使用這個模型（“學(xué)生”）的過程?！坝?xùn)練”是在教會模型，“推理”是在使用模型模型推理最關(guān)注什么從用戶的角度講，推理性能的關(guān)鍵在于：效果好壞：模型給出的反饋是否準(zhǔn)確、有效，能否滿足實際需求；交互延遲：從用戶提出請求到模型給出響應(yīng)，中間的時間延遲同樣關(guān)乎用戶體驗。從技術(shù)實現(xiàn)的角度看，除了滿足用戶體驗需求之外，還需要關(guān)注：硬件依賴：推理過程對算力硬件(如 GPU)有多大依賴，能否靈活適配多種硬件；資源利用率：推理任務(wù)能否充分利用硬件算力，提高單位成本的效益；部署靈活性：能否方便地將模型部署到云端或邊緣端，甚至直接在終端設(shè)備上執(zhí)行推理。模型推理的 Scaling LawOpenAI o1 模型的發(fā)布取得了驚艷的效果，而效果變好的同時，模型的反應(yīng)時間（推理時間）也有了明顯的延遲，這讓模型推理的研究首次受到關(guān)注。大多數(shù)大模型推理（Inference）的計算量占比很小，而 OpenAI o1（草莓模型）的出現(xiàn)，從推理側(cè)進行優(yōu)化，提升模型性能的同時也增加了推理的計算量。這是否意味著新的 Scaling Law（規(guī)律）：模型 “思考” 的時間越長，它就會越準(zhǔn)確？o1 is explicitly trained on how to solve problems， and second， o1 is designed to generate multiple problem-solving streams at inference time， choose the best one， and iterate through each step in the process when it realizes it made a mistake. That’s why it got the crossword puzzle right — it just took a really long time.o1 經(jīng)過準(zhǔn)確地訓(xùn)練以掌握解決問題的方法，o1 的設(shè)計邏輯是在推理時生成多個問題解決方案，并選擇最好的一個，而且在意識到犯錯時能在整個過程的任意步驟中進行修正。這就是它能正確解決字謎難題的原因 —— 只是花費了非常長的時間。模型推理的競爭格局盡管各大公司在樂此不疲的卷大模型的研發(fā)，但最終真正面向用戶并帶來商業(yè)價值的還是模型推理。如今的模型推理市場也已經(jīng)逐漸繁榮，從上游的算力硬件，到中游的推理服務(wù)，再到下游的行業(yè)應(yīng)用，都有眾多玩家爭相角逐。Flaningam 將推理的提供方式劃分為幾個主要陣營：基礎(chǔ)模型 API：大模型提供商開放的 API 接口。盡管最簡單易用，但因為模型對用戶來說完全黑盒，因此調(diào)整的靈活性最低。長期來看，使用成本也最高；推理服務(wù)代理運營：提供托管推理服務(wù)，用戶可以在平臺上選用基礎(chǔ)模型，也可以部署開源模型進行微調(diào)，是易用性和靈活性之間很好的權(quán)衡；AI 云平臺：提供 GPU 算力租用和維護，以及部分推理的優(yōu)化服務(wù)。用戶可以高度定制模型和部署方案，但需要更多的技術(shù)投入和運維成本；AI 芯片廠商：以英偉達、AMD 為代表，提供通用 GPU 芯片。企業(yè)購買芯片后，可靈活自建推理服務(wù)集群，并針對特定任務(wù)深度調(diào)優(yōu)。專業(yè)門檻和前期投入最高，但理論上后期能實現(xiàn)極致性價比。不同推理提供方式的國外玩家：API、云服務(wù)（代理運營、AI 云平臺）、硬件廠商可以看到，推理已成為眾多科技公司爭相布局的新藍海。隨著算力成本的持續(xù)下降和應(yīng)用規(guī)模的爆發(fā)增長，推理賽道未來有望迎來井噴式發(fā)展。推理價值的多維博弈價值總是流向稀缺資源。在復(fù)雜的推理市場中，價值的流向取決于供給和需求的動態(tài)博弈。放眼當(dāng)下，推理的商業(yè)價值很可能會在供給和需求的多重博弈中被重新洗牌。具體而言，可以從以下三個方面著重分析：一方面，隨著大模型不斷突破性能天花板，對推理的規(guī)模、復(fù)雜度也提出了越來越高的要求。這意味著擁有頂尖算力、先進算法、高效架構(gòu)的頭部玩家將在競爭中占據(jù)優(yōu)勢，并有望率先盈利?？梢哉f，先發(fā)優(yōu)勢和技術(shù)壁壘是價值的“稀缺資源”，將吸引更多的資本投入。另一方面，行業(yè)應(yīng)用的廣度、深度決定了推理的需求曲線。如果 OpenAI、微軟、谷歌等（國內(nèi)如 BAT、字節(jié)等）“超級獨角獸”壟斷了應(yīng)用市場的大部分份額，那么價值可能更多地向基礎(chǔ)設(shè)施層傾斜。相反，如果越來越多的企業(yè)，哪怕是初創(chuàng)公司、小微企業(yè)，也能借助日益成熟完善的 AI 工具和平臺，開發(fā)出有競爭力的 AI 應(yīng)用，那么專注于推理服務(wù)的供應(yīng)商將有機會爭奪更多市場蛋糕。這種情況下，“應(yīng)用創(chuàng)新”和“市場空白”成為了新的稀缺資源。此外，隨著技術(shù)進步，設(shè)備端推理（邊緣計算）也將是一個潛在的增量市場。一旦小模型、端側(cè)芯片的能力能滿足終端用戶的基本使用需求，邊緣端推理的發(fā)展空間可能被迅速打開。到那時，或許“端云協(xié)同”和“算力下沉”或許又會成為大模型競爭的新的制勝法寶。邊緣計算能夠降低公司計算集群的資本支出（CapEx）和運營支出（OpEx），消費者也能獲得本地推理帶來的低時延和更好的數(shù)據(jù)安全保障等諸多好處。總結(jié)AI 推理是大模型商業(yè)化的關(guān)鍵一環(huán)。隨著技術(shù)突破、市場爆發(fā)，AI 推理的商業(yè)價值正在多維博弈中不斷重塑。當(dāng)下來看，擁有頂尖算力和架構(gòu)優(yōu)勢的頭部玩家，毫無疑問在占據(jù)先發(fā)優(yōu)勢。但放眼將來，端云協(xié)同、算力下沉很可能帶來新的增量。對于投資者而言，在洞察技術(shù)趨勢的同時，把握行業(yè)發(fā)展的節(jié)奏也至關(guān)重要。需要在技術(shù)趨勢、行業(yè)格局、市場容量等多個維度權(quán)衡利弊，審時度勢地布局價值高地。注：本文不構(gòu)成投資建議Eric Flaningam 個人主頁：https://www.linkedin.com/in/ericflaningam/)參考文獻https://substack.com/@ericflaningam/p-152106163https://youtu.be/WQQdd6qGxNs?si=FRb74Im5XNRBWykKhttps://youtu.be/WQQdd6qGxNs?si=FRb74Im5XNRBWykK

閱讀原文