autodl官网地址,autodl算力云gpt租用平台,Stable diffusion煉丹無限跑圖
什么是autodl算力云?
AI算力个人云:弹性、好用、省錢、更大更全更專業的AI算力集群,即刻開启算力租用
autodl官网: https://www.autodl.com/
autodl算力云价格
「AutoDL」是一个国内一个優秀的GPU租用平台
,提供專業的GPU租用服務,秒級计費、穩定好用,7×24小时服務。對应的GPU的时价如下:
autodl算力云優点
它的優点是
按秒计費
使用时開机,不用就關机,關机就不收費操作简單
對新手友好,配備一键傻瓜式启动包,装完就能用按需配置
根据自己需求配置GPU,再强的顯卡也能用得起多端運行
不再是本地運行,只要有浏览器,你可以在手机,電腦,Pad,智能電視等任何入口使用
GPU選型
如何排查性能瓶颈参考文档。此外需注意3060、3090、3080Ti、A4000、A5000、A40、A100、A5000等安培架构的卡需要cuda11.1及以上才能使用(TitanXp、1080Ti、2080Ti、P40、V100没有要求),请使用較高版本的框架。
AutoDL平台分配GPU、CPU、記憶體的机制為:按租用的GPU數量成比例分配CPU和記憶體,算力市場顯示的CPU和記憶體均為每GPU分配的CPU和記憶體,如果租用两块GPU,那么CPU和記憶體就x2。此外GPU非共享,每个實例對GPU是独占的。
一. 選择CPU
CPU非常重要!尽管CPU并不直接参与深度学習模型计算,但CPU需要提供大于模型訓练吞吐的資料處理能力。比如,一台8卡NVIDIA V100的DGX伺服器,訓练ResNet-50 ImageNet圖像分类的吞吐就达到8000張圖像/秒,而擴展到16卡V100的DGX2伺服器却没达到2倍的吞吐,說明这台DGX2伺服器的CPU已經成為性能瓶颈了。
我们通常為每块GPU分配固定數量的CPU邏輯核心。理想情况下,模型计算吞吐随GPU數量线性增长,單GPU的合理CPU邏輯核心數分配可以直接线性擴展到多GPU上。AutoDL平台的算力實例提供了多种CPU分配規格。每块GPU应配備至少4~8核心的CPU,以滿足多线程的異步資料讀取。分配更多的核心通常不会再有很大的收益,此时的資料讀取瓶颈通常源于Python的多进程切换与資料通信開销(如使用PyTorch DataLoader)。那么怎么省錢克服資料讀取瓶颈呢,不妨在AutoDL平台試試C++和CUDA编寫的NVIDIA DALI資料讀取加速库吧。在我们的测試中,單核CPU實例的資料讀取能力就超过了基于Python的八核心實例,真正做到了為模型訓练保駕護航。
AutoDL中高性能CPU的選择有:
- 内蒙A区 A5000 / 3090 / A40用到的AMD EPYC 7543 CPU
- 内蒙A区 A100用到的AMD EPYC 7763 CPU
- 北京A区 3090用到的Intel(R) Xeon(R) Gold 6330 或 AMD EPYC 7642 CPU
- 深圳A区 3090用到的Intel(R) Xeon(R) Gold 6330
伺服器的CPU一般不如桌面CPU的主频高,但是核心數量多。因此您从以前使用桌面CPU切换到伺服器CPU上后,需要充分利用多核心的性能,否则無法發挥伺服器CPU的性能。如何利用请戳
二. 選择GPU
AutoDL平台上提供的GPU型号很多。我们按照GPU架构大致分為五类:
- NVIDIA Pascal架构的GPU,如TitanXp,GTX 10系列等。 这类GPU缺乏低精度的硬體加速能力,但却具備中等的單精度算力。由于价格便宜,适合用来练習訓练小模型(如Cifar10)或调試模型代碼。
- NVIDIA Volta/Turing架构的GPU,如GTX 20系列, Tesla V100等。 这类GPU搭载專為低精度(int8/float16)计算加速的TensorCore, 但單精度算力相較于上代提升不大。我们建議在實例上启用深度学習框架的混合精度訓练来加速模型计算。 相較于單精度訓练,混合精度訓练通常能够提供2倍以上的訓练加速。
- NVIDIA Ampere架构的GPU,如GTX 30系列,Tesla A40/A100等。 这类GPU搭载第三代TensorCore。相較于前一代,支持了TensorFloat32格式,可直接加速單精度訓练 (PyTorch已默认開启)。但我们仍建議使用超高算力的float16半精度訓练模型,可獲得比上一代GPU更顯著的性能提升。
- 寒武紀 MLU 200系列加速卡。 暂不支持模型訓练。使用该系列加速卡进行模型推理需要量化為int8进行计算。 并且需要安装适配寒武紀MLU的深度学習框架。
- 華為 Ascend 系列加速卡。 支持模型訓练及推理。但需安装MindSpore框架进行计算。
GPU型号的選择并不困难。對于常用的深度学習模型,根据GPU對应精度的算力可大致推算GPU訓练模型的性能。AutoDL平台标注并排名了每种型号GPU的算力,方便大家選择适合自己的GPU。
GPU的數量選择与訓练任務有關。一般我们认為模型的一次訓练应当在24小时内完成,这样隔天就能訓练改进之后的模型。以下是選择多GPU的一些建議:
- 1块GPU。适合一些資料集較小的訓练任務,如Pascal VOC等。
- 2块GPU。同單块GPU,但是你可以一次跑两组参數或者把Batchsize擴大。
- 4块GPU。适合一些中等資料集的訓练任務,如MS COCO等。
- 8块GPU。經典永流传的配置!适合各种訓练任務,也非常方便复现論文結果。
- 我要更多!用于訓练大参數模型、大規模调参或超快地完成模型訓练。
三. 選择記憶體
記憶體在充足的情况下一般不影响性能,但是由于AutoDL的實例相比本地電腦對記憶體的使用有更嚴格的上限限制(本地電腦記憶體不足会使用硬碟虚擬記憶體,影响是速度下降),比如租用的實例分配的記憶體是64GB,程式在訓练时最后將要使用64.1GB,此时超过限制的这一时刻进程会被系統Kill導致程式中斷,因此如果對記憶體的容量要求大,请選择分配記憶體更多的主机或者租用多GPU實例。如果不确定記憶體的使用,那么可以在實例监控中觀察記憶體使用情况。
数据评估
本站ai工具百寶箱提供的autodl都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai工具百寶箱实际控制,在2024年11月25日 下午3:53收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai工具百寶箱不承担任何责任。