摘抄：怎么解决过拟合与欠拟合

正则化（Regularization）包含L1、L2（L2 regularization也叫权重衰减，weight decay）
1. 讲解的非常清楚，看原文
解释了L2正则化项有让w“变小”的效果，可是还没解释为什么w“变小”能够防overfitting？
在什么情况下使用L1,什么情况下使用L2？
L1、L2正则化是通过改动代价函数来实现的，而Dropout则是通过改动神经网络本身来实现的

一个所谓“显而易见”的解释就是：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。当然，对于非常多人（包含我）来说，这个解释似乎不那么显而易见，所以这里加入一个略微数学一点的解释（引自知乎）：
- 过拟合的时候，拟合函数的系数往往非常大，为什么？例如以下图所看到的，过拟合。就是拟合函数须要顾忌每个点。终于形成的拟合函数波动非常大。在某些非常小的区间里，函数值的变化非常剧烈。
- 这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以仅仅有系数足够大，才干保证导数值非常大。而L2正则化是通过约束參数的范数使其不要太大，所以能够在一定程度上降低过拟合情况。