我們?nèi)绾卧谑畟€(gè)月內(nèi)將 ARR 從 0 增長到 1000 萬美元以上?
作者 | Anshul Ramachandran
譯者 | 王強(qiáng)
策劃 | 褚杏娟 2022 年 11 月,我為 Latent Space 撰寫了第一篇客座博客文章,并且(樂觀地)希望它能成為三部分系列中的第一篇:如何選擇長期 AI 產(chǎn)品戰(zhàn)略(https://www.latent.space/p/what-building-copilot-for-x-really);第二篇:如何讓你的 AI 產(chǎn)品有區(qū)分度(https://www.latent.space/p/ai-ux-moat)我們的企業(yè)產(chǎn)品在不到一年的時(shí)間內(nèi)從零增長到了超過 1000 萬美元的 ARR,所以是時(shí)候發(fā)布第 3 篇了。也許令人驚訝的是,我們要做的事情不像 enterpriseready.io 等網(wǎng)站所說的那么簡單。早在 2022 年 11 月,我就為這三個(gè)主題寫好了論文,但當(dāng)我寫第一篇文章時(shí)遇到了一個(gè)小問題。那時(shí)我們剛剛發(fā)布了 Codeium,因此雖然我可以談?wù)劦谝粋€(gè)論點(diǎn)(強(qiáng)大的產(chǎn)品策略來自對(duì)經(jīng)濟(jì)學(xué)和用例細(xì)節(jié)的深刻理解),但我們當(dāng)時(shí)并不一定與其他 AI 代碼助手有所區(qū)別(每個(gè)工具都只是自動(dòng)完成而已),而且我們肯定沒有在賺錢。兩年后,越來越明顯的是,出于質(zhì)量和成本的原因,公司需要大大超越單純的模型 API 調(diào)用方法,而任務(wù)特定模型、托管開源模型、RAG 等主題都已開始流行。2023 年夏天到來了,我們已經(jīng)對(duì) IDE 內(nèi)體驗(yàn)做了 GA,其中包括代碼鏡頭和直接插入代碼等特性,這些功能在當(dāng)時(shí)是非常新穎的。那時(shí) GitHub Copilot 還要幾個(gè)月才會(huì) GA 他們的功能。到那時(shí),我有了足夠的信心認(rèn)定我在第二篇論文中的論點(diǎn)是正確的——用戶體驗(yàn)將是創(chuàng)造差異化護(hù)城河的關(guān)鍵,無論是在短期還是長期皆是如此。一年多之后,我認(rèn)為這一論點(diǎn)比以往任何時(shí)候都更正確,人們真正意識(shí)到擁有非常直觀和強(qiáng)大的用戶體驗(yàn)是多么重要,這種體驗(yàn)在某種程度上隱藏了底層模型和推理的復(fù)雜性。看看 Perplexity 或 Glean,甚至在我們這個(gè)領(lǐng)域,看看 Zed 或 Cursor。他們的技術(shù)不錯(cuò),用戶體驗(yàn)也很棒。不過,當(dāng)時(shí)在寫我的第三篇論文時(shí)仍然存在一個(gè)小問題。個(gè)人版 Codeium 過去是免費(fèi)的,現(xiàn)在仍然是免費(fèi)的,我們剛剛推出了付費(fèi)企業(yè)產(chǎn)品,所以我們還不一定能賺錢。所以我還不能寫關(guān)于如何用人工智能產(chǎn)品賺錢的文章。沒有證據(jù)的觀點(diǎn)就是猜測(cè)。好吧,正如前面提到的,我們的企業(yè)產(chǎn)品在不到一年的時(shí)間內(nèi)就達(dá)到了八位數(shù)的 ARR。在 B2B 軟件世界中,這可算是很快了。所以在過了一年后,我希望在關(guān)于生成式人工智能產(chǎn)品的見解上取得三連勝。那么第三篇論文的論點(diǎn)是什么?如果你想在生成式人工智能領(lǐng)域持續(xù)賺錢,你必須是“企業(yè)基礎(chǔ)設(shè)施原住民”。
什么是企業(yè)基礎(chǔ)設(shè)施原住民?
成為企業(yè)基礎(chǔ)設(shè)施原住民意味著公司從一開始就有實(shí)力讓其產(chǎn)品用于最艱難的企業(yè)環(huán)境,例如財(cái)富 500 強(qiáng)、受監(jiān)管的行業(yè)、百年老店。在舊金山和硅谷,我們經(jīng)常被困在泡沫中。例如,如果我們要為企業(yè)開發(fā)代碼助手,考慮客戶時(shí)卻只想到了硅谷的公司,我們就會(huì)錯(cuò)過真正的市場(chǎng)機(jī)會(huì)。美國前十大銀行雇用的軟件開發(fā)人員比 FAANG 全員都多,而這只是少數(shù)幾家銀行,而且只是美國而已。僅摩根大通一家就有超過 4 萬名技術(shù)人員。簡單的谷歌搜索結(jié)果顯示,Meta 的員工中有大約 3.2 萬名軟件工程師。而且現(xiàn)實(shí)情況是,這些非科技企業(yè)有很多約束,而這些約束不會(huì)出現(xiàn)在個(gè)人用戶或“數(shù)字原住民”硅谷科技公司身上。為了推出 MVP,盡快迭代產(chǎn)品,同時(shí)還能獲得用戶,企業(yè)自然會(huì)選擇消除這些約束,只關(guān)注硅谷用戶。“企業(yè)基礎(chǔ)設(shè)施原住民”公司的秘訣在于,他們不會(huì)屈服于這種屬性,不會(huì)在一開始就忽略這些約束。為什么?因?yàn)橐院笤僖脒@些約束要困難得多。這當(dāng)然會(huì)更難,因?yàn)槟憧赡軙?huì)做出很多錯(cuò)誤的設(shè)計(jì)決策。例如,你構(gòu)建系統(tǒng)時(shí)可能選擇了一種難以容器化的方式,部署到一個(gè)自托管系統(tǒng)上(典型的 SaaS 到本地問題),而這正是許多大型受監(jiān)管公司想要的。或者你忘了基于規(guī)則的訪問控制和其他安全考慮,因?yàn)槟阒皇羌僭O(shè)每個(gè)員工都可以看到所有數(shù)據(jù)。或者使用了不符合 HIPAA 合規(guī)性的系統(tǒng),忘記添加審計(jì)系統(tǒng),或者忽略了構(gòu)建深度遙測(cè)的需求。但還有其他一些本質(zhì)因素會(huì)導(dǎo)致企業(yè)在之后很難糾正錯(cuò)誤。首先,你可能不會(huì)針對(duì)現(xiàn)實(shí)的完整狀態(tài)進(jìn)行迭代,而且企業(yè)與消費(fèi)者其實(shí)完全是兩碼事。例如,在我們的 AI 編程領(lǐng)域,如果你只為單個(gè)開發(fā)人員進(jìn)行迭代,你將永遠(yuǎn)不會(huì)意識(shí)到一個(gè)非常先進(jìn)的,可以處理龐大、雜亂且通常過時(shí)的代碼庫的推理系統(tǒng)的重要性。這不是你的業(yè)余愛好者和硅谷開發(fā)人員客戶在構(gòu)建從 0 到 1 的項(xiàng)目時(shí)所要做的事情。另一方面,你的團(tuán)隊(duì)可能會(huì)發(fā)展得太快,以至于你沒有合適的專業(yè)知識(shí)來對(duì)這些約束做迭代。例如,為了滿足安全約束,客戶要在本地運(yùn)行生成式 AI,所以我們需要本地 GPU,但這意味著我們的計(jì)算能力是有限的(大多數(shù)應(yīng)用程序都不會(huì)讓人們?yōu)槠滟徺I一個(gè)機(jī)架的 H100)。這意味著我們需要實(shí)施很多非常重要的基礎(chǔ)設(shè)施優(yōu)化技巧,以彌補(bǔ)我們無法在后臺(tái)“擴(kuò)展算力”的劣勢(shì)。如果整個(gè)團(tuán)隊(duì)此時(shí)更像是一個(gè)產(chǎn)品團(tuán)隊(duì),而不是一個(gè)在 GPU 基礎(chǔ)設(shè)施方面具有專業(yè)知識(shí)的垂直團(tuán)隊(duì),那么你就無法取得成功。如果你在早期由于忽略了許多約束而加快了步伐,那么當(dāng)將來不可避免的企業(yè)轉(zhuǎn)型到來時(shí),你會(huì)發(fā)現(xiàn)自己構(gòu)建了錯(cuò)誤的架構(gòu)和團(tuán)隊(duì)。這也能解釋為什么生成式 AI 流行之前成長起來的公司通常難以適應(yīng)這種新模式——他們沒有一支將生成式 AI 視為自身 DNA 核心部分的員工隊(duì)伍。有些產(chǎn)品必須要有“企業(yè)基礎(chǔ)設(shè)施原住民”團(tuán)隊(duì)才行,因?yàn)閺亩x上講,它們只適用于這類企業(yè)。例如,Harvey 對(duì)個(gè)人用戶來說就不合適。但絕大多數(shù)問題域都可以選擇是否在一開始就考慮這些約束。企業(yè)基礎(chǔ)設(shè)施原住民公司會(huì)有意選擇克服所有這些約束的障礙。我想明確一點(diǎn)——“企業(yè)基礎(chǔ)設(shè)施原住民”確實(shí)意味著需要付出更多努力來迭代產(chǎn)品。簡單來說就是約束更多了。話雖如此,如果這種本能從一開始就融入公司的 DNA,它就會(huì)成為一種做事方式。結(jié)果你在構(gòu)建系統(tǒng)時(shí),從一開始就會(huì)讓系統(tǒng)更容易在這些約束下進(jìn)行迭代,你還會(huì)解決一個(gè)巨大而急迫的企業(yè)文化挑戰(zhàn)。同時(shí),這并不意味著你必須等到某個(gè)特性適用于每家企業(yè)后才發(fā)布它。例如,我們有一些 SaaS 企業(yè)層可以更快地部署特性并獲得反饋。成為“企業(yè)基礎(chǔ)設(shè)施原住民”意味著,公司中至少有一些人應(yīng)該積極思考如何讓該特性最終能適用于所有企業(yè)。我之所以稱之為企業(yè)基礎(chǔ)設(shè)施原住民,而不僅僅是企業(yè)原住民,是為了強(qiáng)調(diào)基礎(chǔ)設(shè)施這個(gè)部分,這并不奇怪。絕大多數(shù)額外的約束都表現(xiàn)為技術(shù)軟件基礎(chǔ)設(shè)施問題的形式,因此這凸顯了你要在技術(shù)棧中特別關(guān)注才能做好工作的那些部分,下面很快會(huì)具體展開。這就是為什么我一直認(rèn)為 enterpriseready.io 等網(wǎng)站上的建議沒有切中要害。雖然你確實(shí)需要考慮變更管理、基于規(guī)則的訪問控制、SLA 和支持等問題,才能讓你的 SaaS 工具為企業(yè)做好準(zhǔn)備,但這些指南給人的感覺是“如何修補(bǔ)已構(gòu)建好的產(chǎn)品”,而不是“如何從一開始就構(gòu)建正確的產(chǎn)品”。現(xiàn)實(shí)情況是,有時(shí)過早優(yōu)化確實(shí)會(huì)帶來回報(bào)。我認(rèn)為在生成式 AI 時(shí)代,采用“修補(bǔ)你的產(chǎn)品以備企業(yè)使用”的方法比傳統(tǒng)的 SaaS 產(chǎn)品更危險(xiǎn),因?yàn)橐氲募s束會(huì)更棘手,而且局勢(shì)變化如此之快,以至于你可能沒時(shí)間修補(bǔ)你的工具,因?yàn)榭倳?huì)有人一直在思考產(chǎn)品方向,并正確地抓住了市場(chǎng)機(jī)遇。來自 EnterpriseReady。發(fā)現(xiàn)什么明顯錯(cuò)誤的地方了嗎?
為什么是“非科技”企業(yè)?
如果你看到了這里,你可能會(huì)糾結(jié)于一個(gè)核心問題——所有這些都是在談?wù)撓蚍强萍荚∶衿髽I(yè)銷售產(chǎn)品,但 B2C 市場(chǎng)或更多數(shù)字原住民科技公司呢?為什么不考慮在這些市場(chǎng)中賺錢?這里的重點(diǎn)是要理解為什么在可預(yù)見的未來,生成式人工智能初創(chuàng)公司的收入將來自非科技企業(yè)。選擇企業(yè)而非個(gè)人市場(chǎng)的第一個(gè)論點(diǎn)是,企業(yè)一直有錢購買軟件。微軟顯然擁有龐大的 B2B 部門,谷歌和 Facebook 也從企業(yè)廣告商那里獲得了巨額收入。如果你今天正在用生成式人工智能構(gòu)建產(chǎn)品,那么今天的價(jià)值主張就是完成更多工作或做更多創(chuàng)造性工作。企業(yè)愿意為這一價(jià)值主張投入巨額資金,說服幾家大企業(yè)就相當(dāng)于說服成千上萬的個(gè)人。非科技企業(yè)優(yōu)于科技企業(yè)的第一個(gè)理由是,所有大型科技公司都非常重視人工智能,并且擁有大量資金來嘗試自行開發(fā)。這里指的不僅僅是 FAANG 公司——開源 LLM 和易用的 LLM 相關(guān)框架的可用性使擁有開發(fā) DNA 的公司更愿意自行開發(fā)而不是購買服務(wù)。所有大型科技公司都在嘗試自己抓住市場(chǎng)機(jī)會(huì)。想象一下我們?cè)噲D將 Codeium 賣給微軟,這可不是什么好事。大型科技公司對(duì)構(gòu)建生成式 AI 產(chǎn)品的興趣也應(yīng)該會(huì)讓任何從事 B2C 業(yè)務(wù)的人們感到害怕,因?yàn)榇笮涂萍脊疽呀?jīng)擁有龐大的 B2C 基礎(chǔ)資源與巨大的分銷渠道。我們已經(jīng)看到了這一點(diǎn)。Perplexity 正試圖在 B2C 搜索市場(chǎng)與谷歌競(jìng)爭,他們還必須做一些備受質(zhì)疑的事情,比如在后端使用谷歌。另一方面,Glean 正在進(jìn)軍 B2B 搜索市場(chǎng),并且在這個(gè)領(lǐng)域做得很好,而大型科技公司目前還沒有太多動(dòng)作。大型科技公司的興趣也讓其他人更難爭奪科技原住民企業(yè)的業(yè)務(wù)機(jī)會(huì),因?yàn)檫@些企業(yè)通常比非科技原住民公司受到的約束更少。大型科技公司的速度足夠快,可以解決那些較容易克服的約束,但初創(chuàng)公司可以利用他們的速度來解決非科技原住民企業(yè)可能遇到的更復(fù)雜的約束,從而脫穎而出。我們?cè)?Codeium 經(jīng)常看到這種情況。盡管幾乎每家大型科技公司都有代碼助手產(chǎn)品,但對(duì)于許多非科技原住民公司來說,我們到頭來并沒有與它們中的任何一家競(jìng)爭,因?yàn)槲覀兊漠a(chǎn)品以獨(dú)特的方式應(yīng)對(duì)了這些公司所面臨的約束。我們將在下一節(jié)中詳細(xì)說明這些約束都有哪些,以及如何解決它們。我知道大家現(xiàn)在可能在想什么。但是 OpenAI 呢?他們憑借 ChatGPT 在 B2C 領(lǐng)域取得了巨大成功。我首先承認(rèn),考慮到 OpenAI 已經(jīng)研究這項(xiàng)技術(shù)很長時(shí)間,這是一個(gè)很大的例外。如果你現(xiàn)在開始構(gòu)建產(chǎn)品,你并不會(huì)有他們這樣的技術(shù)。實(shí)際上,隨著用戶開始嘗試其他模型(例如 Anthropic 的 Claude 3.5 Sonnet 似乎備受開發(fā)人員的歡迎),以及用戶嘗試 ChatGPT 以外的基于的產(chǎn)品(例如 Perplexity),人們現(xiàn)在想知道 OpenAI 是否真的能長期留住客戶。B2C 市場(chǎng)是無情的。
如何成為企業(yè)基礎(chǔ)設(shè)施原住民企業(yè)
好的,希望到現(xiàn)在為止我已經(jīng)讓你理解了應(yīng)該成為企業(yè)基礎(chǔ)設(shè)施原住民企業(yè)背后的邏輯。但在實(shí)踐中到底意味著什么?我們從一開始需要注意哪些事項(xiàng)?還好,我可以回來講講我們?cè)?Codeium 積累的經(jīng)驗(yàn)。數(shù)據(jù)是許多企業(yè)基礎(chǔ)設(shè)施原住民考慮的根本原因之一。與現(xiàn)有的 SaaS 解決方案不同的是,在現(xiàn)有 SaaS 解決方案中,數(shù)據(jù)雖然可能很敏感,但可以通過系統(tǒng)來跟蹤它們,而 LLM 的大黑匣子屬性則增加了很多不確定性。無論是用于訓(xùn)練的大量數(shù)據(jù),還是對(duì)所生成數(shù)據(jù)的可追溯性缺乏透明度,都是這種不確定性的體現(xiàn)。
安全性
要使生成式 AI 工具發(fā)揮作用,你需要處理一些隱私數(shù)據(jù)。可以確認(rèn)的是每家企業(yè)都有針對(duì)你的工具要處理的那些數(shù)據(jù)的,關(guān)于隱私和安全性的現(xiàn)行政策。例如,我們?cè)?Codeium 處理代碼,如果公司使用 SCM 的自托管版本,那么他們已經(jīng)證明他們的代碼默認(rèn)策略是不將其發(fā)送到第三方服務(wù)器,即使第三方擁有所有認(rèn)證,例如 SOC2 合規(guī)性,也不行。在基礎(chǔ)設(shè)施方面需要考慮的最重要的一點(diǎn)是你應(yīng)該提供的部署選項(xiàng)集合。一般來說,你要么需要一個(gè)完全離線部署的自托管部署選項(xiàng),要么至少需要一個(gè)混合版本,其中所有的持久隱私數(shù)據(jù)(或從隱私數(shù)據(jù)派生的信息)都保留在客戶的租戶內(nèi)。你應(yīng)該考慮將解決方案的服務(wù)端容器化,以便簡單地部署它(單節(jié)點(diǎn)系統(tǒng)使用 Docker compose,多節(jié)點(diǎn)系統(tǒng)使用 Kubernetes/Helm),并確保客戶端具有安全指向客戶服務(wù)器實(shí)例的功能。這些部署面臨許多挑戰(zhàn),尤其是自托管部署。其中一些包括:確保你設(shè)置了自己的鏡像掃描,這樣就不會(huì)出現(xiàn)安全漏洞,像 Google Artifact Registry 這樣簡單的掃描程序都可以。客戶也會(huì)使用自己的掃描工具,而且有很多不同的掃描工具,所以要做好準(zhǔn)備。建立持續(xù)更新和發(fā)布的系統(tǒng)(大多數(shù)客戶更喜歡“拉取鏡像”更新解決方案,而不是供應(yīng)商提供的“推送鏡像”方法)。實(shí)際的更新頻率取決于你期望的產(chǎn)品發(fā)展速度——如果用戶體驗(yàn)變化很大,也許最好每隔幾周發(fā)布一次,但如果用戶體驗(yàn)相對(duì)穩(wěn)定,而且更新主要是研究性開放式推理改進(jìn),那么每月或更短一些的發(fā)布時(shí)間應(yīng)該沒問題。更快的發(fā)布周期的一個(gè)普遍好處是,如果發(fā)布版本中存在錯(cuò)誤,那么在穩(wěn)定版本中修復(fù)它們所需的時(shí)間會(huì)更少(如果問題嚴(yán)重,則需要單獨(dú)的補(bǔ)丁)。確保你的方案既能跑在超大規(guī)模集群,也能在本地 OEM 可以提供的機(jī)器上運(yùn)行。我可以寫一整篇文章來討論誰能獲得哪些 GPU 和背后的,但你經(jīng)常會(huì)看到各種差異,例如 Azure 和 GCP 上提供 1xA100 和 2xA100 實(shí)例,但 AWS 上只有 8xA100 實(shí)例可用。正確調(diào)整昂貴的 GPU 硬件規(guī)模以盡可能降低解決方案的 TCO,是創(chuàng)建更好的 ROI 故事的關(guān)鍵所在。一定要幫助客戶在他們的第一批 GPU 部署中跑通一個(gè)部署流程。另外,即使你認(rèn)為自托管或混合部署過于復(fù)雜,你仍需要考慮為你的 SaaS 解決方案提供許多證明和認(rèn)證。SOC2 Type 2 是基本要求,這要求在一段時(shí)間內(nèi)設(shè)置控制措施并接受對(duì)這些控制措施的遵守情況的審核,因此需要數(shù)月的準(zhǔn)備時(shí)間才能獲得此認(rèn)證。ISO 27001 更進(jìn)一步,歐洲公司經(jīng)常詢問這一條(盡管由于 GDPR 的要求,即使有此認(rèn)證,你可能仍需要考慮在位于歐盟的服務(wù)器托管你的解決方案)。最后,如果美國是潛在客戶(這里有很多利潤空間),你將需要考慮 Fedramp(針對(duì)民間機(jī)構(gòu))和 Impact Levels(針對(duì)國防部)認(rèn)證。要獲得這些認(rèn)證,你需要做很多事情,例如容器化你的應(yīng)用程序,這是你在自托管部署中必須做的事情。如果你在構(gòu)建 SaaS 應(yīng)用程序時(shí)沒有考慮到這一點(diǎn),做起來就會(huì)困難很多。最后一點(diǎn)比較明顯,如果你最后是在自己公司這邊處理客戶數(shù)據(jù),就不要用這些數(shù)據(jù)來訓(xùn)練。聽起來很簡單,但這仍是客戶最大的擔(dān)憂,因?yàn)檫@種風(fēng)險(xiǎn)依舊占據(jù)著媒體頭條。每一份合同都會(huì)要求寫明這一點(diǎn)(如果不寫明,則會(huì)在紅線中添加進(jìn)去)。我們從未嘗試過以折扣換取使用客戶隱私數(shù)據(jù)訓(xùn)練通用模型的權(quán)利,因?yàn)閺奈从腥魏污E象表明人們會(huì)接受這種做法。這種軟件并不昂貴,公司甚至不會(huì)考慮折扣和 IP 隱私之間的權(quán)衡,尤其是在判例法尚未建立的地區(qū)。有些人可能認(rèn)為現(xiàn)實(shí)并不公平。雖然很多公司確實(shí)在使用大型科技公司的云服務(wù),但潛在客戶對(duì)初創(chuàng)公司的安全性的信任度要低得多,因此他們可能對(duì)安全性的要求比對(duì)大型科技公司的要求更高。這就要求你誠實(shí)地說明你的解決方案在各種部署選項(xiàng)中都有哪些功能。你的自托管選項(xiàng)通常不會(huì)像 SaaS 托管選項(xiàng)那樣有著豐富的功能,因此,如果你用的是自托管版本,而不像大型科技公司對(duì)手可以使用 SaaS 版本,你是否會(huì)讓自己陷入困境?
合規(guī)性
只需搜索“生成式 AI 訴訟”,你就會(huì)明白我的意思。由于這些 LLM 是用大量數(shù)據(jù)訓(xùn)練的,并且不可能將這些概率系統(tǒng)的輸出追溯到特定的訓(xùn)練數(shù)據(jù)示例,因此這里存在大量之前沒遇到過的全新合規(guī)性問題。首先,許多模型都是使用它們可能不應(yīng)該使用的數(shù)據(jù)來訓(xùn)練的,例如受版權(quán)保護(hù)的圖像或非授權(quán)代碼。許多企業(yè)法律團(tuán)隊(duì)擔(dān)心使用這樣的系統(tǒng)會(huì)導(dǎo)致他們?cè)谖磥砭砣朐V訟(就判例法而言,這個(gè)領(lǐng)域非常落后)。因此,如果你是企業(yè)基礎(chǔ)設(shè)施原住民,你需要控制用于訓(xùn)練模型的數(shù)據(jù),無論你是在訓(xùn)練自己的小型模型,還是在開源模型上執(zhí)行其他任何針對(duì)任務(wù)的預(yù)訓(xùn)練過程。可以考慮實(shí)施數(shù)據(jù)清理措施,這樣你就可以自信地向企業(yè)聲明,你不使用受版權(quán)保護(hù)的材料進(jìn)行訓(xùn)練。還可以多做一點(diǎn),例如我們從訓(xùn)練數(shù)據(jù)中刪除了所有非許可代碼,也刪除了所有與明確的非許可代碼具有相似編輯距離的那些代碼(以防其他人復(fù)制粘貼了那些非許可代碼卻沒被發(fā)現(xiàn))。即使模型本質(zhì)上是概率性的,主動(dòng)充分展示你們的做法也會(huì)增加最終客戶的可信度,畢竟他們的法律團(tuán)隊(duì)可能會(huì)在你提供任何價(jià)值之前就把你拒了。哦,關(guān)于這個(gè)話題,不要違反其他服務(wù)條款。OpenAI 的服務(wù)條款規(guī)定,你不能使用他們的模型的輸出作為訓(xùn)練材料。所以不要這樣做,你會(huì)驚訝地發(fā)現(xiàn)有多少人忽略了這一點(diǎn)。你可以主動(dòng)做很多工作,但有眼光的企業(yè)會(huì)發(fā)現(xiàn)這些模型是概率性的,并希望模型生成的數(shù)據(jù)能有某種保證。這里你就必須巧妙地構(gòu)建一個(gè)歸因系統(tǒng),可能基于編輯距離和相似度分?jǐn)?shù)的一些啟發(fā)式方法。例如,我們構(gòu)建了更高級(jí)的歸因過濾器,而不僅僅是其他工具采用的簡單字符串匹配方法。這往往還不夠。我們?yōu)樗斜辉试S的代碼匹配構(gòu)建了 歸因日志,為特定受監(jiān)管行業(yè)構(gòu)建了 審計(jì)日志,內(nèi)置了為醫(yī)療保健公司提供 BAA 的支持,等等。所有這些很快就會(huì)變成基礎(chǔ)設(shè)施問題。你確實(shí)需要非常認(rèn)真地對(duì)待這一點(diǎn),因?yàn)樽鳛橐患页鮿?chuàng)公司,與安全性的主題類似,你需要有行業(yè)領(lǐng)先的賠償條款,或者至少與大型科技公司提供的條款相匹配,才能在風(fēng)險(xiǎn)角度上獲得客戶的認(rèn)可。你要對(duì)解決方案的這一方面有真正的信心,否則這種條款會(huì)有很大的危險(xiǎn)。這些工作流都不一定“令人興奮”,因?yàn)閺淖罱K用戶的角度來看,產(chǎn)品并沒什么變化,但它們依舊是必要的。
個(gè)性化
你認(rèn)為一個(gè)通用系統(tǒng)經(jīng)過大量公開數(shù)據(jù)的訓(xùn)練就能為企業(yè)解決問題嗎?大多數(shù)企業(yè)認(rèn)為他們的工作很特別,而事實(shí)是,即使他們的技術(shù)棧不是那么獨(dú)特,他們也確實(shí)有大量隱私數(shù)據(jù),這些數(shù)據(jù)與想要生成更多隱私數(shù)據(jù)的人工智能系統(tǒng)高度相關(guān)。對(duì)我們來說,現(xiàn)有的私有代碼庫是創(chuàng)建高質(zhì)量結(jié)果的最相關(guān)信息,同時(shí)它們能盡可能減少幻覺,因?yàn)樗鼈儼F(xiàn)有的庫、語義、最佳實(shí)踐等知識(shí)。又要提到安全性了,你可能也習(xí)慣了。你無法在每次推理時(shí)都處理所有原始私有數(shù)據(jù),因此你可能需要對(duì)數(shù)據(jù)做一些預(yù)處理,并且必須將這些信息保存在某個(gè)地方。這就是純 SaaS 解決方案的問題所在。即使你能做到,也要付出更多努力才能說服企業(yè)客戶允許初創(chuàng)公司擁有這種訪問和控制他們數(shù)據(jù)的權(quán)限,這就對(duì)你能做到的個(gè)性化程度帶來了很大約束。問題還不僅限于他們的 IP 與外部來源通信時(shí)的安全性考慮。基于角色的訪問控制(RBAC)對(duì)于 AI 應(yīng)用程序是非常重要的,因?yàn)?AI 工具本身就能提供一種途徑,將只有某些員工才能訪問的數(shù)據(jù)廣泛泄露給其他員工。同樣,這種問題也是新出現(xiàn)的,因?yàn)樯墒?AI 是第一批可以創(chuàng)建出和已有數(shù)據(jù)很像的新內(nèi)容的技術(shù)之一。一個(gè)極端的例子是,事實(shí)證明,對(duì)于項(xiàng)目來說,一堆數(shù)據(jù)單獨(dú)存放時(shí)可能不是問題,但組合在一起時(shí)就會(huì)變成機(jī)密數(shù)據(jù)。個(gè)性化和人工智能技術(shù)具有整合信息的能力,但應(yīng)謹(jǐn)慎對(duì)待。每當(dāng)你計(jì)劃使用隱私數(shù)據(jù)時(shí),都需要考慮許多因素,尤其是對(duì)于較老的企業(yè)更是如此。使用 AI 技術(shù)時(shí)更要注意,因?yàn)檩斎霐?shù)據(jù)的質(zhì)量在很大程度上決定了生成數(shù)據(jù)的質(zhì)量。現(xiàn)有數(shù)據(jù)的年限是多少?數(shù)據(jù)與當(dāng)前手頭的任務(wù)有多相關(guān)?哪些數(shù)據(jù)源更重要?如何平衡來自多個(gè)數(shù)據(jù)源的信息?個(gè)性化是每家初創(chuàng)公司都應(yīng)該利用的一個(gè)軸心,因?yàn)樗黾恿瞬町惢瘍r(jià)值,而大多數(shù)大型競(jìng)爭對(duì)手推出這些價(jià)值的速度會(huì)更慢——這些系統(tǒng)具有很大挑戰(zhàn)性,這里的錯(cuò)誤很容易導(dǎo)致他們陷入巨大的公關(guān)噩夢(mèng)。不過我們應(yīng)該知道有很多基礎(chǔ)設(shè)施可以做好這件事情。
分析和投資回報(bào)率報(bào)告
分析對(duì)于企業(yè)軟件工具來說不是什么新鮮事物,但鑒于市場(chǎng)對(duì) AI 技術(shù)的期望過高,AI 非常需要分析技術(shù)。我們可能很快就會(huì)擺脫這種過高的期望,但這并不能改變這樣一個(gè)事實(shí):大多數(shù)潛在客戶并不完全清楚他們對(duì)生成式人工智能的期望是什么,也不知道如何量化其價(jià)值。證明投資回報(bào)率可能是最難的問題。即使對(duì)于像代碼生成這樣具體的事情,其中生成式人工智能工具的輸出是可以驗(yàn)證的(代碼必須編譯、運(yùn)行并執(zhí)行預(yù)期的任務(wù)),所謂“開發(fā)人員生產(chǎn)力”的含義也非常模糊。它指的是拉取請(qǐng)求周期時(shí)長嗎?也許吧,但那里有太多混雜變量,很難真正評(píng)估單個(gè)工具是否對(duì)這個(gè)值的任何變化負(fù)責(zé)。是接受的代碼量嗎?也許這是一個(gè)很好的價(jià)值代表,但很明顯,一半的代碼來自人工智能并不意味著開發(fā)人員的生產(chǎn)力提高了一倍。我可以想象,對(duì)于營銷文案等應(yīng)用來說這更加困難,因?yàn)檫@些應(yīng)用的輸出結(jié)果首先就不一定是可驗(yàn)證的。我首先承認(rèn)我在這里真的沒有答案。證明投資回報(bào)率是一個(gè)非常困難、難以捉摸的問題。話雖如此,生成式人工智能確實(shí)受益于這樣一個(gè)事實(shí):大多數(shù)領(lǐng)導(dǎo)者確實(shí)相信這項(xiàng)技術(shù)會(huì)增加價(jià)值,并且當(dāng)員工說他們使用此類工具感覺效率更高時(shí),領(lǐng)導(dǎo)會(huì)信任他們。因此,作為供應(yīng)商,你應(yīng)該考慮如何讓你的企業(yè)客戶逐步實(shí)現(xiàn)更多價(jià)值。例如,一個(gè)好的開始是按團(tuán)隊(duì)來統(tǒng)計(jì)使用率數(shù)據(jù)。這樣,管理員就可以了解哪些組別獲得了更多價(jià)值,從他們那里收集最佳實(shí)踐,哪些組獲得的價(jià)值較少,可能需要更多支持。
延遲
我們?cè)?Codeium 博客中經(jīng)常討論延遲。延遲約束對(duì)生成式人工智能應(yīng)用非常重要,因?yàn)樗鼈冎苯佑绊懩P瓦x擇等事項(xiàng)。例如,代碼生成的自動(dòng)完成任務(wù)需要在數(shù)百毫秒內(nèi)運(yùn)行完畢,開發(fā)人員才能及時(shí)看到建議。但由于 LLM 的自回歸性質(zhì),這就意味著所有的大規(guī)模基礎(chǔ)模型都用不了了。不管是量化還是推測(cè)解碼之類的方法都沒法解決超大模型的延遲問題。模型推理并不是延遲的唯一來源。所有個(gè)性化工作也可能帶來延遲。推理之前的任何檢索都需要符合延遲預(yù)算。將數(shù)據(jù)發(fā)送到單獨(dú)的服務(wù)器?你要考慮網(wǎng)絡(luò)延遲,特別是在處理視頻等密集數(shù)據(jù)時(shí)。對(duì)模型輸出進(jìn)行后處理工作,例如對(duì)照歸因過濾器來做檢查?那就意味著這些過濾器也得是低延遲的。不出所料,這些都是軟件基礎(chǔ)設(shè)施問題。你可以構(gòu)建世界上最智能的系統(tǒng),但如果它的運(yùn)行速度不足以滿足負(fù)載和用戶的需求,它也就沒什么用了。
規(guī)模
這一點(diǎn)更本質(zhì)一些,它涉及上述所有挑戰(zhàn)。當(dāng)你意識(shí)到這些企業(yè)的用戶 / 員工規(guī)模、他們擁有的數(shù)據(jù)規(guī)模以及私有基礎(chǔ)設(shè)施的復(fù)雜性時(shí),所有這些挑戰(zhàn)都變得更困難了。我們的客戶擁有數(shù)萬個(gè)存儲(chǔ)庫、數(shù)億行代碼和數(shù)萬名開發(fā)人員。這些數(shù)字將擴(kuò)展你的系統(tǒng)的所有方面。你是否創(chuàng)建了一個(gè)自托管系統(tǒng)來索引代碼庫以實(shí)現(xiàn)個(gè)性化?但如果現(xiàn)在客戶有數(shù)萬個(gè)存儲(chǔ)庫怎么辦,它們真的都對(duì)個(gè)性化有所幫助嗎?客戶如何指定哪些是好代碼,壞代碼?你如何在這種規(guī)模下管理對(duì)這個(gè)索引的更新工作?如何在不影響延遲的情況下將其擴(kuò)展到數(shù)萬名開發(fā)人員?你如何管理數(shù)千個(gè)用戶組和訪問控制任務(wù)?不幸的是,我沒有時(shí)間或空間來一個(gè)個(gè)回答這些問題,但如果你不想在以后感到驚訝和手忙腳亂,那么在設(shè)計(jì)和構(gòu)建解決方案時(shí),你應(yīng)該問自己這些問題。
總 結(jié)
從許多方面來看,這篇文章解釋了 Codeium 迄今為止在 B2B 領(lǐng)域的成功,讓我們深入了解了如何思考和合理化這個(gè)領(lǐng)域。與此同時(shí),我希望我的這個(gè)論點(diǎn)是錯(cuò)的,這可能會(huì)出乎你的意料。我希望看到初創(chuàng)公司即使在 B2C 和技術(shù)原住民的 B2B 市場(chǎng)中也能成功與大型科技公司競(jìng)爭。我希望看到各種形式的企業(yè)最終將人工智能視為自己更向技術(shù)原住民靠攏的原因。自私地說,我希望看到像 Codeium 這樣的 B2B 成功企業(yè)被視為擁有最佳人工智能產(chǎn)品的創(chuàng)新型人工智能公司,而不僅僅是“企業(yè)級(jí)解決方案”供應(yīng)商。但如果你是一家新創(chuàng)業(yè)公司,今天想通過生成式人工智能獲得可持續(xù)收入,我希望這篇文章能對(duì)你有所幫助!作為一家企業(yè)基礎(chǔ)設(shè)施原住民公司,你要習(xí)慣這種不舒服的感覺。原文鏈接:https://www.latent.space/p/enterprise?utm_campaign=post&utm_medium=web會(huì)議推薦12 月 13 日至 14 日(周五至周六),AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)將在北京盛大開幕!本次大會(huì)匯聚 70+ 位 AI 及技術(shù)領(lǐng)域的頂尖專家,深入探討大模型與推理、AI Agent、多模態(tài)、具身智能等前沿話題。此外還有豐富的圓桌論壇、以及展區(qū)活動(dòng),帶你深入探索大模型的最新實(shí)踐與未來趨勢(shì)。年度最后一次 AI 盛宴,讓我們一起見證 AI 未來。今日薦文ChatGPT Canvas免費(fèi)啦!集成Python仿真器,支持在線修Bug,生產(chǎn)力飆升Sora 剛正式登場(chǎng)就把OpenAI系統(tǒng)干廢了!Altman緊急暫停新用戶注冊(cè)阿里合伙人為“爹味發(fā)言”道歉:自罰三個(gè)月工資;美圖出售加密貨幣獲利5.7億;虧損11億、上市對(duì)賭失敗,公司啟動(dòng)全員降薪 | AI周報(bào)OpenAI深夜炸場(chǎng)!一口氣放出o1模型全家桶,月費(fèi)200美元的ChatGPT Pro被狂槽:Altman只想躺在上數(shù)錢谷歌最強(qiáng)世界模型“硬控”O(jiān)penAI 一分鐘:智能體交互、替你玩游戲!等等,智能體們?cè)缭谟螒蚶?cosplay、交友了!你也「在看」嗎???
相關(guān)文章
