优化器的设置

大语言模型微调及其应用的探索 跟踪前沿的技术

优化器的设置

  1. 优化器的作用是调整模型参数, 使用损失最小
  2. 优化器有很多, 比如动量, RMSProp, 最常使用的是AdamW
  3. 可以给优化器设置一些超参:学习率, 权重衰减率等
  4. 现在需要设置的超参已经很少了,大部分我们应该使用默认值
  5. weight_decay, 它会对大权重参数进行更严厉的惩罚