梯度下降=学习步长=学习率 发表于 2018-08-27 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/深度学习+视觉/总结部分 阅读次数: 本文字数: 198 阅读时长 ≈ 1 分钟 2018年8月27日 下午7:59 学习思路:首先明确问题出现在哪里?然后如何解决? 学习角度:从数学公式的角度去分析每个改进点 原始公式: 基本解决问题的思路: 抑制震荡:我们就需要将代表前面梯度累加的变量引入到公式中 不同的参数设置不同的学习步长:其实本质利用的就是平方,>1越来越大,<1越来越小 r参数一直在增大:通过引入一 个衰减系数,让r每回合都衰减一定比例 将以上的优点结合在一起:Adam