AutoDL 算力云
國內專業的GPU租用平臺,為學生提供免費升級會員通道,享極具性價比的會員價格
標簽:AI算力平臺AutoDL autodl官網 autodl官網地址 autodl算力云 autodl算力云gpt租用平臺 Stable diffusion煉丹無限跑圖AutoDL算力云官網
AI算力個人云:彈性、好用、省錢、更大更全更專業的AI算力集群。

AutoDL算力云價格
「AutoDL」是一個國內一個優秀的GPU租用平臺
,提供專業的GPU租用服務,秒級計費、穩定好用,7×24小時服務。對應的GPU的時價如下:
autodl算力云優點
按秒計費
使用時開機,不用就關機,關機就不收費操作簡單
對新手友好,配備一鍵傻瓜式啟動包,裝完就能用按需配置
根據自己需求配置GPU,再強的顯卡也能用得起多端運行
不再是本地運行,只要有瀏覽器,你可以在手機,電腦,Pad,智能電視等任何入口使用
GPU選型
如何排查性能瓶頸參考文檔。此外需注意3060、3090、3080Ti、A4000、A5000、A40、A100、A5000等安培架構的卡需要cuda11.1及以上才能使用(TitanXp、1080Ti、2080Ti、P40、V100沒有要求),請使用較高版本的框架。
AutoDL平臺分配GPU、CPU、內存的機制為:按租用的GPU數量成比例分配CPU和內存,算力市場顯示的CPU和內存均為每GPU分配的CPU和內存,如果租用兩塊GPU,那么CPU和內存就x2。此外GPU非共享,每個實例對GPU是獨占的。
一. 選擇CPU
CPU非常重要!盡管CPU并不直接參與深度學習模型計算,但CPU需要提供大于模型訓練吞吐的數據處理能力。比如,一臺8卡NVIDIA V100的DGX服務器,訓練ResNet-50 ImageNet圖像分類的吞吐就達到8000張圖像/秒,而擴展到16卡V100的DGX2服務器卻沒達到2倍的吞吐,說明這臺DGX2服務器的CPU已經成為性能瓶頸了。我們通常為每塊GPU分配固定數量的CPU邏輯核心。理想情況下,模型計算吞吐隨GPU數量線性增長,單GPU的合理CPU邏輯核心數分配可以直接線性擴展到多GPU上。AutoDL平臺的算力實例提供了多種CPU分配規格。每塊GPU應配備至少4~8核心的CPU,以滿足多線程的異步數據讀取。分配更多的核心通常不會再有很大的收益,此時的數據讀取瓶頸通常源于Python的多進程切換與數據通信開銷(如使用PyTorch DataLoader)。那么怎么省錢克服數據讀取瓶頸呢,不妨在AutoDL平臺試試C++和CUDA編寫的NVIDIA DALI數據讀取加速庫吧。在我們的測試中,單核CPU實例的數據讀取能力就超過了基于Python的八核心實例,真正做到了為模型訓練保駕護航。AutoDL中高性能CPU的選擇有:
- 內蒙A區 A5000 / 3090 / A40用到的AMD EPYC 7543 CPU
- 內蒙A區 A100用到的AMD EPYC 7763 CPU
- 北京A區 3090用到的Intel(R) Xeon(R) Gold 6330 或 AMD EPYC 7642 CPU
- 深圳A區 3090用到的Intel(R) Xeon(R) Gold 6330
服務器的CPU一般不如桌面CPU的主頻高,但是核心數量多。因此您從以前使用桌面CPU切換到服務器CPU上后,需要充分利用多核心的性能,否則無法發揮服務器CPU的性能。如何利用請戳
二. 選擇GPU
AutoDL平臺上提供的GPU型號很多。我們按照GPU架構大致分為五類:
- NVIDIA Pascal架構的GPU,如TitanXp,GTX 10系列等。 這類GPU缺乏低精度的硬件加速能力,但卻具備中等的單精度算力。由于價格便宜,適合用來練習訓練小模型(如Cifar10)或調試模型代碼。
- NVIDIA Volta/Turing架構的GPU,如GTX 20系列, Tesla V100等。 這類GPU搭載專為低精度(int8/float16)計算加速的TensorCore, 但單精度算力相較于上代提升不大。我們建議在實例上啟用深度學習框架的混合精度訓練來加速模型計算。 相較于單精度訓練,混合精度訓練通常能夠提供2倍以上的訓練加速。
- NVIDIA Ampere架構的GPU,如GTX 30系列,Tesla A40/A100等。 這類GPU搭載第三代TensorCore。相較于前一代,支持了TensorFloat32格式,可直接加速單精度訓練 (PyTorch已默認開啟)。但我們仍建議使用超高算力的float16半精度訓練模型,可獲得比上一代GPU更顯著的性能提升。
- 寒武紀 MLU 200系列加速卡。 暫不支持模型訓練。使用該系列加速卡進行模型推理需要量化為int8進行計算。 并且需要安裝適配寒武紀MLU的深度學習框架。
- 華為 Ascend 系列加速卡。 支持模型訓練及推理。但需安裝MindSpore框架進行計算。
GPU型號的選擇并不困難。對于常用的深度學習模型,根據GPU對應精度的算力可大致推算GPU訓練模型的性能。AutoDL平臺標注并排名了每種型號GPU的算力,方便大家選擇適合自己的GPU。GPU的數量選擇與訓練任務有關。一般我們認為模型的一次訓練應當在24小時內完成,這樣隔天就能訓練改進之后的模型。以下是選擇多GPU的一些建議:
- 1塊GPU。適合一些數據集較小的訓練任務,如Pascal VOC等。
- 2塊GPU。同單塊GPU,但是你可以一次跑兩組參數或者把Batchsize擴大。
- 4塊GPU。適合一些中等數據集的訓練任務,如MS COCO等。
- 8塊GPU。經典永流傳的配置!適合各種訓練任務,也非常方便復現論文結果。
- 我要更多!用于訓練大參數模型、大規模調參或超快地完成模型訓練。
三. 選擇內存
內存在充足的情況下一般不影響性能,但是由于AutoDL的實例相比本地電腦對內存的使用有更嚴格的上限限制(本地電腦內存不足會使用硬盤虛擬內存,影響是速度下降),比如租用的實例分配的內存是64GB,程序在訓練時最后將要使用64.1GB,此時超過限制的這一時刻進程會被系統Kill導致程序中斷,因此如果對內存的容量要求大,請選擇分配內存更多的主機或者租用多GPU實例。如果不確定內存的使用,那么可以在實例監控中觀察內存使用情況。
數據統計
數據評估
本站OpenI提供的AutoDL 算力云都來源于網絡,不保證外部鏈接的準確性和完整性,同時,對于該外部鏈接的指向,不由OpenI實際控制,在2023年 5月 31日 上午8:44收錄時,該網頁上的內容,都屬于合規合法,后期網頁的內容如出現違規,可以直接聯系網站管理員進行刪除,OpenI不承擔任何責任。
相關導航
