英博云率先提出“單位有效算力成本”新定義。作者|程茜編輯|漠影智東西12月13日報道,今天,國產“算力黑馬”之一英博數科亮出了英博云全系產品、服務升級成果,可以概括為一大標準+高效益、多樣化的GPU智算產品與服務。一大標準指的是企業在成本效率、資源利用等維度的成本評估框架——“單位有效算力成本”,這可以成為企業評估計算資源實際效率的參考,也為智算行業的透明化、高效化和可持續化提供了可行的路徑。高效益、多樣化的GPU智算產品與服務,包括面向萬卡集群大規模訓練需求的智算中心建設運維、能滿足彈性算力需求的GPU容器服務、評估關鍵指標的先進算力實驗室、聯合產業上下游的產業孵化器四大維度。從評估標準、算力服務到科學評估服務,英博數科作為鴻博股份的全資子公司,承載著集團科技專項發展的重任,并已經在智算行業的加速變革下形成了全面的業務支撐。大模型產業發展至今,從最初ChatGPT爆火,到如今AI應用加速落地,圖片、視頻、3D等多模態模型涌現,再到2024年臨近尾聲,OpenAI、谷歌、亞馬遜、Meta紛紛亮出年末大招,又在大模型掀起新熱潮,都將這一產業的競爭推向新的高度。在這之中,算力、算法、數據三駕馬車并駕齊驅之際,算力層面的企業需求正在發生變化:從單純考量算力規模轉移到如何用好算力、充分釋放算力的價值,這對算力提供商提出了更為嚴峻的考驗。在此背景下,智東西等媒體在發布會前期,與鴻博股份CFO兼英博數科CEO浦威、英博數科CTO李少鵬、英博數科副總裁宋琛、英博數科副總裁秦偉俊進行了深入交流,從英博云的新發布出發,探尋智能算力產業的高效發展之路。01.從基礎模型到AI應用智算產業三大趨勢凸顯算力作為數據處理和算法執行的關鍵驅動力,今年以來,業界的關注焦點也在發生變化。從算力提供方以及企業需求方來看,目前有三大明顯的趨勢:首先,通用大模型訓練算力集群從千卡移向萬卡。此前被視為大模型“金科玉律”的Scaling Law發展正在放緩成為業界熱議的焦點,綜合來看,盡管預訓練有放緩趨勢,但正如李少鵬所言,相同算法、相同架構條件下,模型規模與性能表現往往是成正比的,因此“從第一性原理來看,Scaling law不會失效”。在一定階段內,算力需求的持續增長仍毋庸置疑。再看通用大模型的參數量發展,已經從千億級向萬億級邁進,隨著硬件技術的進階,使得構建萬卡集群具備可行性。海外GPT-4大模型需要用25000張A100 GPU訓100天、Meta推出2個24576張H100集群、馬斯克曾自曝新版Grok 3訓練用了10萬張H100 GPU……可以說,未來做通用模型,萬卡級別已成必備門檻。其次,垂直大模型訓練算力使用從定量移向彈性。不同于通用模型,垂直模型業務往往具有較強時效性和不確定性,以金融行業的風險預測為例,市場波動頻繁才是其高頻使用的場景,市場相對穩定其算力需求相對較低。因此,其算力分配的規模和頻率可能會隨時間、業務場景而變化,定量的算力配置難以靈活應對這種變化。而彈性算力模式的供給,既能讓企業根據實際訓練需求動態調整算力資源,在訓練任務低谷期減少算力租用,避免不必要的成本支出;在高峰期則能快速擴充算力,確保訓練任務按時完成,從而在高效利用算力資源的同時控制成本。最后,算力需求正從訓練轉向推理。大模型加速落地應用已經成為,其應用場景已經從科研維度向醫療、金融、交通等行業擴展,而這些實際場景中,大模型推理階段的算力需求更為突出。在業務端,AI助手、機器人等需要快速響應客戶請求,并實時對大量傳感器數據進行處理、計算,以支撐其做出準確、科學的決策反饋。但鮮明的產業趨勢背后,對算力提供方提出的挑戰也不可小覷。構建萬卡智算集群,需要解決硬件、軟件等諸多挑戰。如大量加速卡之間的高速互聯、穩定可靠的硬件系統、具備容錯能力的軟件架構、有效的故障檢測機制、優化和適配的訓練算法、提高能源利用效率……同時,彈性算力為算力提供商的技術積淀提出了更高要求,其需要整合云計算、虛擬化、容器、異構計算等多種技術,同時要兼顧數據管理、傳輸,在如此復雜的系統架構下完成運維和管理。最后推理階段的算力要求最直觀的就是——響應要快,不同于訓練階段,推理階段用戶對延遲的容忍度更低,需要在短時間內得到響應,因此需要算力集群能通過提升網絡帶寬和存儲系統的性能,以兼顧數據的快速傳輸、數據安全等。因此,算力提供方如何提供更好用的算力、企業如何選擇合適的算力,成為橫亙在二者之間的鴻溝。02.算力高效利用迫在眉睫率先定義“單位有效算力成本”目前,盡管萬卡集群的建設正高歌猛進,各家都亮出了彈性算力提供方案,但企業應該如何選擇這件事,尚未得到解決。從企業端的需求來看,當大模型走向千行百業,企業選購算力的重點也隨之轉移,從更注重算力規模到算力的有效利用率。那么,業界是否有直觀的數據指標,能將這一評估標準直接呈現出來,以供企業能快速準確的選到高性能、性價比的方案?答案顯然是還沒有。浦威做了一個形象的比喻,就像在高速路上開車載荷貨物,只有車的馬力跑足、貨物裝滿,才能把實際支出的“算力”充分利用起來。在此背景下,英博數科提出了一個定義“單位有效算力成本”的新標準:具體來看,這一公式的分子是設備成本、機電成本、運維成本組成的算力投入成本,分母是裝機算力、卡可用率、卡利用率及模型算力利用率組成的有效計算能力,通過這兩個參數的系統比較,得出單位有效算力的成本。李少鵬進一步解釋說,這一標準制定背后,他們綜合考慮了成本、實際裝機算力、訓練過程折損、模型框架選擇、模型訓練的時間長度和效率整個鏈條。其中,算力投入成本中采購服務器的設備成本是固定的,此外智算中心的日常使用需要企業支付機房租賃以及電力的費用,同時需要人力運營、維護,避免其出現故障,因此,最終成本源頭就組成了這三塊。分母指的就是企業得到的有效算力,由于裝機算力即設備廠商標定的額定算力會因為各種因素被折損。在運維技術或者條件不完善的情況下,卡會存在很高的故障概率,也就是說假設裝機算力達到1000P,但實際可用的算力可能只有900P。卡利用率指的就是GPU卡真正為企業所用的效率,正如前文所述,垂直業務場景中,對GPU算力的需求并不是穩定且持續的,因此在非業務場景下GPU卡會空閑下來。最后是模型算力利用率,這是針對GPU做大模型訓練和推理的重要指標,其是實際有效利用算力資源與所提供總算力資源之間的比例關系。這四大關鍵要素相乘作為整體的分母,企業的算力投入成本相加作為分子,就將“單位有效算力成本”這件事評估清楚了。回過頭來看,當下企業關注應用算力效率問題這件事,其實并不是一個新鮮話題,相關的討論也異常火熱,目前從相關標準的討論焦點來看,機房算力、運營、網絡、存儲、環境等問題的分析非常多,卻缺少一個邏輯鏈將這些因素串聯起來。英博數科為什么做到了?浦威點出了問題的關鍵——因為英博數科將這一條鏈路端到端經歷過。從智算中心建設、機房選型到集群建設、交付,到模型訓練等環節,都已經呈現在其業務體系中。不論從成本還是效率來看,算力的高效利用都迫在眉睫,“如何用好算力”在當下更為關鍵。站到算力產業新的發展節點,英博數科要在“提高算力有效利用率”上做文章。而基于上面這一標準,當算力需求端和供給端形成,這是算力產業良性發展的前提。李少鵬補充說,企業可以根據這一標準快速估算自己的成本以及對應的需求,從而找到適合的方案。因此,英博數科高效益、多樣化的智算產品、服務方案就應運而生了。03.高效益、多樣化智算產品+服務釋放更多有效算力“單位有效算力成本”新標準,已經成為英博數科產品與服務體系的基準。今天,英博數科推出英博云——高效益、多樣化的GPU智算產品與服務,成為大模型智能水平進階以及落地應用的重要基礎設施。在此之上,其產品包括面向萬卡集群大規模訓練需求的智算中心建設運維、能滿足彈性算力需求的GPU容器服務、評估關鍵指標的先進算力實驗室、聯合產業上下游的產業孵化器四大業務。從直接的算力提供方案來看,宋琛提到英博數科關注的兩點,一方面是對大模型訓練本身有集群規模建設的頭部大模型客戶,其會基于本身的集群建設和運維經驗,提供量身定制的集群選型、建設、運維到整體解決方案;另一方面是,對中小型客戶的彈性算力需求,其推出了容器云服務。其中,智算中心建設運維就是面向萬卡集群的大規模訓練需求,英博云會為企業提供自研的高性能并行存儲解決方案、硬件測評和檢測體系、系統運維和硬件維修體系、細粒度的集群監控和故障自動化恢復體系、算力調度平臺。做萬卡甚至十萬卡規模的集群,需要將所有卡組在一張計算網中,涉及整體的設備、交換機、光模塊、光纖選型,對于非AI基建領域的專業玩家挑戰很大,而這正是英博數科技術積累發揮優勢的機遇。GPU容器服務可以滿足彈性算力需求,包括以VCluster形式提供GPU和CPU資源混合的彈性K8S集群服務、支持SSH和Kubectl管理操作、秒級別的容器啟停和計費粒度、企業級并行存儲服務、提供內網預定義場景鏡像倉庫、常用模型庫、常用數據集等數據源服務等。容器云的難點在于,需要精準分配和管理算力資源,以適應企業進行大模型訓練和推理不同階段的算力需求,且需兼顧數據的高效存儲、管理以及高效的網絡通信、高效的并行和分布式訓練等。而英博云的產品將面向客戶提供按需使用的算力,甚至可以精確到按小時、按分鐘計費,按CPU任務或GPU任務等,因“單位有效算力成本”的標準之下,企業的算力成本也會更為可控。產品之外,服務體系也是鏈接企業需求與算力供應形成科學互動的關鍵,也就是英博數科的算力實驗室扮演的角色。宋琛談道,算力實驗室聚焦的領域有兩個,測評市面上的主流算力卡,以及測評和適配國產算力卡并進行異構算力平臺開發工作。先進算力實驗室圍繞硬件評測、軟件評測以及行業服務展開工作,為企業算力基礎設施的升級與優化提供前瞻先進、切實可行的建議。比如在硬件評測方面,實驗室會對GPU、交換機、光模塊、并行存儲等進行嚴格測試,確保設備性能符合高標準;在軟件評測方面,圍繞基座模型、訓練框架、微調框架、推理框架等,為智能算力的優化提供全方位支持。通過提供行業標準制定和定制化服務,先進算力實驗室會幫助企業在智能算力領域不斷突破創新。投資層面,英博云正在聯合AI產業上下游,探索算力組合投資新模式,宋琛提到了產業孵化器的形式,英博數科會對AI應用領域的新興創企,提供資金、算力、人才培養等幫助。綜上所述,英博云此次的智算產品與服務升級,集萬卡集群構建、算力提供方式、評估體系于一體,將智能算力服務的供應體系串聯了起來。想要做到這些非一日之功,這都得益于這家國產“算力黑馬”深厚的技術積淀與商業化經驗。英博數科的核心成員出身清華、北大等名校及頭部互聯網、AI與云計算企業。就在上周,英博數科智算中心建設運維解決方案已在京能項目落地,據悉,英博數科在智算中心建設運維方面擁有的獨特優勢,成為推動京能項目持續進展的核心力量。這些已經成為其面向智算產業變革的行業浪潮之下,打造行業護城河的重要支撐。如今,算力在AI產業中的地位舉足輕重,現下的產業命題正是如何緊跟大模型產業的發展趨勢,使得算力在企業之間高效流轉起來,英博數科的戰略升級,使得其成為當下這一產業鏈中算力賦能者。04.結語:算力先鋒AI全鏈進化的強勁引擎隨著AI技術不斷向縱深拓展,從基礎模型的構建到復雜算法的訓練與優化,每一個環節都離不開強大算力的支撐。英博數科在算力基礎設施建設方面投入巨大且已經成果斐然,此次產品與服務的全面升級,也是其面向算力產業變革的趨勢下交出的最新答卷。在AI應用加速落地的當下,算力基礎設施提供商正與大模型玩家、企業應用方形成合力,為AI大規模應用落地不斷注入新動力。(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。)
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
暫無評論...