混合精度训练

鲁老师大约 6 分钟模型加速混合精度训练

通常而言，神经网络训练的性能瓶颈通常在于GPU显存：一方面是单张GPU卡上可容纳的模型和数据量，另一方面是显存和计算单元的带宽和延迟有限。在Micikevicius et al.^[1]提出混合精度训练之前，深度学习模型都是在使用float32精度进行训练的，Micikevicius等人经过实验发现，可以使用更低的精度来训练神经网络，进而带来巨大速度收益。混合精度训练一般能够获得2-3倍的速度提升。

低精度以及混合精度训练开始流行，以至于深刻影响了深度学习框架、GPU和神经网络加速器的设计。

精度：FP32，FP16...

计算机是二进制的，使用多个二进制位表示不同的数字。比如，int8使用8位二进制表示正数，float32（FP32，单精度）使用32位二进制表示浮点数，具体表示的方法类似于科学计数法，如下图所示。FP32总共32位，第一位是sign（符号位），表示正负数；后面八位是exponent，用来计算 $2^{exponent}$ ；再后面八位是fraction。

相比之下，更低精度的float16（FP16，半精度）的exponent和fraction位数更少，所能表示的数字范围也更小。

低精度带来的优势是：

同样的GPU显存，可以容纳更大的参数量、更多的训练数据。FP16的占用的空间是FP32的一半，因此权重等参数所占用的内存也是原来的一半，节省下来的内存可以放更大的网络模型或者使用更多的数据进行训练。
低精度的算力（FLOPS）可以做得更高。一些芯片可以设计很高的低精度计算单元，比如当前主流的神经网络加速芯片都有极高的FP16算力，FP32的算力相比FP16较低。
单位时间内，计算单元访问GPU显存上的数据可以获得更高的速度。此外，针对分布式训练，特别是在大模型训练的过程中，通讯的开销制约了网络模型训练的整体性能，低精度意味着可以提升通讯性能，减少等待时间，加快数据的流通。

低精度的缺点显而易见：能表示的数值范围有限。精度越低，数值范围越小。FP16的有效数据表示范围为 $[6.10×10^{−5},65504]$ ，FP32的有效数据表示范围为 $[1.4×10^{−45},1.7×10^{38}]$ 。可见FP16相比FP32的有效范围要窄很多，使用FP16替换FP32会出现上溢（Overflow）和下溢（Underflow）的情况。在深度学习中，需要计算网络模型中权重的梯度（一阶导数），梯度会比权重值更加小，往往容易出现下溢情况。

Micikevicius等人发现神经网络训练没必要一直用FP32，可以适当使用FP16。这一发现也深刻影响了神经网络硬件和框架的设计。比如：

深度学习框架均提供了低精度训练功能。
NVIDIA在最新架构中考虑了不同的精度，华为的昇腾910处理器的算力主要集中在FP16^[2]，Google的TPU设计了特殊的bfloat16格式。