优化器的设置
大语言模型微调及其应用的探索 跟踪前沿的技术
View On GitHub
优化器的设置
优化器的作用是调整模型参数, 使用损失最小
优化器有很多, 比如动量, RMSProp, 最常使用的是AdamW
可以给优化器设置一些超参:学习率, 权重衰减率等
现在需要设置的超参已经很少了,大部分我们应该使用默认值
weight_decay, 它会对大权重参数进行更严厉的惩罚