学习率
大语言模型微调及其应用的探索 跟踪前沿的技术
View On GitHub
学习率
1、学习率过小的情况
梯度下降会非常慢
2、学习率过大的情况
梯度下降始终无法找到局部最小值, 而且训练的模型修改越来越差
3、
固定的学习率不影响梯度收敛
当找到局部最小值后, 梯度为0模型参数将不再更新