深度神经网络之全批量梯度下降、随机梯度下降和小批量梯度下降(mini-batch size)

大语言模型微调及其应用的探索 跟踪前沿的技术

深度神经网络之全批量梯度下降、随机梯度下降和小批量梯度下降(mini-batch size)

使用整个数据集计算梯度, 之后在更新模型参数

随机梯度下降与小批量梯度下降

1、随机梯度下降

随机梯度下降也称SGD,每次使用一个样本进行梯度更新

随机梯度降的优缺点

  1. 每次使用一个样本更新一次参数,计算量小
  2. 它可以更快地进行参数调整,有可能加速训练过程
  3. 无法充分利用GPU硬件
  4. 收敛不稳定,容易出现较大的抖动

2、 小批量梯度下降

将数据集分成多个小批次, 每个批次都更新一个模型参数

小批量的优点

小批量的缺点