机器学习之训练神经网络：最佳做法

Lois 的个人博客 / 0 / 0 / 创建于 6年前

本部分介绍了反向传播算法的失败案例，以及正则化神经网络的常见方法。

失败案例

很多常见情况都会导致反向传播算法出错。

梯度消失

较低层（更接近输入）的梯度可能会变得非常小。在深度网络中，计算这些梯度时，可能涉及许多小项的乘积。
当较低层的梯度逐渐消失到 0 时，这些层的训练速度会非常缓慢，甚至不再训练。
ReLU 激活函数有助于防止梯度消失。

梯度爆炸

如果网络中的权重过大，则较低层的梯度会涉及许多大项的乘积。在这种情况下，梯度就会爆炸：梯度过大导致难以收敛。
批标准化可以降低学习速率，因而有助于防止梯度爆炸。

ReLU 单元消失

一旦 ReLU 单元的加权和低于 0，ReLU 单元就可能会停滞。它会输出对网络输出没有任何贡献的 0 激活，而梯度在反向传播算法期间将无法再从中流过。由于梯度的来源被切断，ReLU 的输入无法作出足够的改变来使加权和恢复到 0 以上。
降低学习速率有助于防止 ReLU 单元消失。

丢失正则化

这称为丢弃的另一种形式的正则化，可用于神经网络。其工作原理是，在梯度下降法的每一步中随机丢弃一些网络单元。丢弃越多，正则化效果就越强：

0.0 = 无丢弃正则化
1.0 = 丢弃所有内容。模型学不到任何规律。
0.0 和 1.0 之间的值更有用。

机器学习

本作品采用《CC 协议》，转载必须注明作者和本文链接

Hacking

Lois

版主 441 声望

暂无个人描述~

2 人点赞

推荐文章：

更多推荐...

博客

收集了一些各大网站 python 的登陆方式,希望对学习 python 的小白，和想写爬虫的你们有所帮助,,本项目用于研究和分享各大网站的模拟登陆方式 17 / 5 |

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

未填写

私信

所有博文

文章归档

5年前第七章：因数分解与算数基本定理（2） 5年前第七章：因数分解与算数基本定理（1） 5年前第六章：线性方程与最大公因数（2） 5年前第六章：线性方程与最大公因数（1） 5年前第五章：整除性与最大公因数（2）

4 随机数生成器 3 机器学习之多类别神经网络：Softmax 2 置换密码 2 对称与非对称密码体制 2 替代密码

博客标签

sublime

机器学习

密码学

Pycharm

python

ji qi xue

上下标问题

latex写博客技巧

latex 写博客技巧

专业英语

数学公式

数学符号

写博客注意事项

Markdown 博客

成为赞助商

机器学习之训练神经网络：最佳做法