怎么做原创动漫视频网站,开发网站找什么公司吗,wordpress账号权限,嘉兴百度网站推广系列文章目录 文章目录 系列文章目录循环神经网络使用循环神经网络的语言模型困惑度#xff08;perplexity#xff09;梯度剪裁 循环神经网络 使用循环神经网络的语言模型 输入“你”#xff0c;更新隐变量#xff0c;输出“好”。
困惑度#xff08;perplexity#xff…系列文章目录 文章目录 系列文章目录循环神经网络使用循环神经网络的语言模型困惑度perplexity梯度剪裁 循环神经网络 使用循环神经网络的语言模型 输入“你”更新隐变量输出“好”。
困惑度perplexity
语言模型说白了是个分类模型我的输出是对下一个词的预测假设一共有m个词也就是m个类的分类问题对于分类问题当然可以使用交叉熵来做。
梯度剪裁
对于长度为 T T T的序列我们在迭代中计算这 T T T个时间步上的梯度将会在反向传播过程中产生长度为 O ( T ) \mathcal{O}(T) O(T)的矩阵乘法链当 T T T较大时它可能导致数值不稳定。 一个流行的替代方案是通过将梯度 g \mathbf{g} g投影回给定半径例如 θ \theta θ的球来裁剪梯度 g \mathbf{g} g。 如下式 g ← min ( 1 , θ ∥ g ∥ ) g . \mathbf{g} \leftarrow \min\left(1, \frac{\theta}{\|\mathbf{g}\|}\right) \mathbf{g}. g←min(1,∥g∥θ)g.
通过这样做我们知道梯度范数永远不会超过 θ \theta θ并且更新后的梯度完全与 g \mathbf{g} g的原始方向对齐。