ChatGPT|GPU类型和租赁平台调研

最近在训练LLaMa模型，发现在各个厂商购买GPU比较贵，于是想找一下按照小时计费的平台，收集了一波资料，调研了各个平台GPU的价格，由于阿里云，腾讯云，华为云等价格大家可以直接找到，所以就不列了，以下都是GPU调研，方便大家参考。

一、GPU型号

1、NVIDIA常见的三大产品线

Quadro类型: Quadro系列显卡一般用于特定行业，比如设计、建筑等，图像处理专业显卡，比如CAD、Maya等软件。

GeForce类型: 这个系列显卡官方定位是消费级，常用来打游戏。但是它在深度学习上的表现也非常不错，很多人用来做推理、训练，单张卡的性能跟深度学习专业卡Tesla系列比起来其实差不太多，但是性价比却高很多。

Tesla类型: Tesla系列显卡定位并行计算，一般用于数据中心，具体点，比如用于深度学习，做训练、推理等。Tesla系列显卡针对GPU集群做了优化，像那种4卡、8卡、甚至16卡服务器，Tesla多块显卡合起来的性能不会受很大影响，但是Geforce这种游戏卡性能损失严重，这也是Tesla主推并行计算的优势之一。

2、Quadro类型

NVIDIA RTX Series系列: RTX A2000、RTX A4000、RTX A4500、RTX A5000、RTX A6000
Quadro RTX Series系列: RTX 3000、RTX 4000、RTX 5000、RTX 6000、RTX 8000

3、GeForce类型

Geforce 10系列: GTX 1050、GTX 1050Ti、GTX 1060、GTX 1070、GTX 1070Ti、GTX 1080、GTX 1080Ti
Geforce 16系列：GTX 1650、GTX 1650 Super、GTX 1660、GTX 1660 Super、GTX 1660Ti
Geforce 20系列：RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super、RTX 2080、RTX 2080 Super、RTX 2080Ti
Geforce 30系列: RTX 3050、RTX 3060、RTX 3060Ti、RTX 3070、RTX 3070Ti、RTX 3080、RTX 3080Ti、RTX 3090 RTX 3090Ti

4、Tesla类型

A-Series系列: A10、A16、A30、A40、A100
T-Series系列: T4
V-Series系列: V100
P-Series系列: P4、P6、P40、P100
K-Series系列: K8、K10、K20c、K20s、K20m、K20Xm、K40t、K40st、K40s、K40m、K40c、K520、K80

注意事项：安培架构不兼容低版本cuda
需要注意3060、3060Ti，3090、3090Ti、3080Ti、A5000等Ampere(安培)架构的GPU需要cuda11.x版本才能使用，请使用较高版本的框架，如果代码需要使用 cuda9、cuda10 等版本，请使用RTX5000，V100S，V100，P100，T4，2080Ti等非Ampere(安培)架构的GPU。

二、GPU性能

1、显存

显存即显卡内存，显存主要用于存放数据模型，决定了我们一次读入显卡进行运算的数据多少(batch size)和我们能够搭建的模型大小(网络层数、单元数)，是对深度学习研究人员来说很重要的指标，简述来讲，显存越大越好。

2、架构

在显卡流处理器、核心频率等条件相同的情况下，不同款的GPU可能采用不同设计架构，不同的设计架构间的性能差距还是不小的，显卡架构性能排序为：Ampere > Turing > Volta > Pascal > Maxwell > Kepler > Fermi > Tesla

3、CUDA核心数量

CUDA是NVIDIA推出的统一计算架构，NVIDIA几乎每款GPU都有CUDA核心，CUDA核心是每一个GPU始终执行一次值乘法运算，一般来说，同等计算架构下，CUDA核心数越高，计算能力会递增。

4、Tensor(张量)核心数量

Tensor 核心是专为执行张量或矩阵运算而设计的专用执行单元，而这些运算正是深度学习所采用的核心计算函数，它能够大幅加速处于深度学习神经网络训练和推理运算核心的矩阵计算；Tensor Core使用的计算能力要比Cuda Core高得多，这就是为什么Tensor Core能加速处于深度学习神经网络训练和推理运算核心的矩阵计算，能够在维持超低精度损失的同时大幅加速推理吞吐效率。

5、半精度

如果对运算的精度要求不高，那么就可以尝试使用半精度浮点数进行运算，这个时候，Tensor核心就派上了用场，Tensor Core专门执行矩阵数学运算，适用于深度学习和某些类型的HPC；Tensor Core执行融合乘法加法，其中两个4*4 FP16矩阵相乘，然后将结果添加到4*4 FP16或FP32矩阵中，最终输出新的4*4 FP16或FP32矩阵。

NVIDIA将Tensor Core进行的这种运算称为混合精度数学，因为输入矩阵的精度为半精度，但乘积可以达到完全精度，Tensor Core所做的这种运算在深度学习训练和推理中很常见。

6、单精度

Float32 是在深度学习中最常用的数值类型，称为单精度浮点数，每一个单精度浮点数占用4Byte的显存。

7、双精度

双精度适合要求非常高的专业人士，例如医学图像，CAD。

三、GPU租赁平台

1、AutoDL

地址：https://www.autodl.com/market/list