学习率

大语言模型微调及其应用的探索 跟踪前沿的技术

学习率

学习率

1、学习率过小的情况

梯度下降会非常慢

2、学习率过大的情况

梯度下降始终无法找到局部最小值, 而且训练的模型修改越来越差

3、固定的学习率不影响梯度收敛

当找到局部最小值后, 梯度为0模型参数将不再更新