学会网站建设目的,饰品做国际贸易哪些网站,学校网站建设基本流程,平台网站制作公司上篇笔记记录到RNN的一个缺点#xff1a;训练时会出现梯度消失#xff0c;解决的办法是找到一个更优的计算单元。这里也有GRU和LSTM。
GRU#xff08;Gated Recurrent Unit#xff09;门控训练网络
什么是门控机制#xff1f;就是对当前的输入进行一个筛选。门打开…上篇笔记记录到RNN的一个缺点训练时会出现梯度消失解决的办法是找到一个更优的计算单元。这里也有GRU和LSTM。
GRUGated Recurrent Unit门控训练网络
什么是门控机制就是对当前的输入进行一个筛选。门打开信息进来继续往下传如果门关闭信息就停留再此不可以往下传。它决定了会有哪些信息往下传。 GRU有两个门一个是更新门一个是重置门他的作用就是hi 或者hi-1和当前信息的比重问题
从直观上来说重置门决定了如何将新的输入信息与前面的记忆相结合更新门定义了前面记忆保存到当前时间步的量。如果我们将重置门设置为 1更新门设置为 0那么我们将再次获得标准 RNN 模型。使用门控机制学习长期依赖关系的基本思想和 LSTM 一致但还是有一些关键区别
GRU 有两个门重置门与更新门而 LSTM 有三个门输入门、遗忘门和输出门。GRU 并不会控制并保留内部记忆c_t且没有 LSTM 中的输出门。LSTM 中的输入与遗忘门对应于 GRU 的更新门重置门直接作用于前面的隐藏状态。在计算输出时并不应用二阶非线性。 GRU 是标准循环神经网络的改进版但到底是什么令它如此高效与特殊
为了解决标准 RNN 的梯度消失问题GRU 使用了更新门update gate与重置门reset gate。基本上这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。这两个门控机制的特殊之处在于它们能够保存长期序列中的信息且不会随时间而清除或因为与预测不相关而移除。
更新门帮助模型决定到底要将多少过去的信息传递到未来或到底前一时间步和当前时间步的信息有多少是需要继续传递的。
重置门主要决定了到底有多少过去的信息需要遗忘。
LSTM
长短期记忆网络long short-term memory network。LSTM 会以一种非常精确的方式来传递记忆——使用了一种特定的学习机制哪些部分的信息需要被记住哪些部分的信息需要被更新哪些部分的信息需要被注意。与之相反循环神经网络会以一种不可控制的方式在每一个时间步骤都重写记忆。这有助于在更长的时间内追踪信息。 双向RNN
不仅需要前面的信息还需要后面的信息 总结 参考
1.经典必读门控循环单元GRU的基本概念与原理 | 机器之心
2.LSTM入门必读从入门基础到工作方式详解 | 机器之心