0%

梯度下降=学习步长=学习率

2018年8月27日 下午7:59

  1. 学习思路:首先明确问题出现在哪里?然后如何解决?
  2. 学习角度:从数学公式的角度去分析每个改进点
  3. 原始公式:
  4. 基本解决问题的思路:
    1. 抑制震荡:我们就需要将代表前面梯度累加的变量引入到公式中
    2. 不同的参数设置不同的学习步长:其实本质利用的就是平方,>1越来越大,<1越来越小
    3. r参数一直在增大:通过引入一 个衰减系数,让r每回合都衰减一定比例
    4. 将以上的优点结合在一起:Adam