摄影婚纱网站建设,网站快捷按钮以什么方式做,施工企业项目经理部管理人员对外行为的法律后果,上海百度竞价点击软件优化和深度学习的关系
优化是最小化损失函数#xff0c;而深度学习的目标是在给定有限数据量的情况下寻找合适的模型#xff0c;分别对应着训练误差和泛化误差#xff1b;需要注意过拟合#xff1b;
优化面临的挑战#xff08;求解数值解#xff09;
局部最小值#…优化和深度学习的关系
优化是最小化损失函数而深度学习的目标是在给定有限数据量的情况下寻找合适的模型分别对应着训练误差和泛化误差需要注意过拟合
优化面临的挑战求解数值解
局部最小值当优化问题的数值解接近局部最优值的时候目标函数解的梯度接近或者变为0通过迭代获得的数值解可能仅使目标函数局部最优而不是全局最优一定程度的噪声会使参数跳出局部最小值这是小批量随机梯度下降的有利特性之一此时小批量上梯度的自然变化能够将参数从局部最小资中跳出鞍点定义为梯度为0但是既不是全局最小值也不是局部最小值的点尽管不是最小值但是优化可能会停止假设输入是k维向量假设在0梯度处的Hessian矩阵的k个特征值均为正此时局部最小值均为负为局部最大值有正有负为鞍点梯度消失
凸性
凸集对于任意的 a , b ∈ X a,b\in X a,b∈X连接 a , b a,b a,b的线段也位于 X X X则集合 X X X是凸集数学化表示对于任意 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ∈[0,1]有 λ a ( 1 − λ ) b ∈ X \lambda a (1-\lambda) b\in X λa(1−λ)b∈X例如实数集两个凸集的交集也是凸集凸函数对于所有 x , x ′ ∈ X , λ ∈ [ 0 , 1 ] x,x\in X,\lambda\in [0,1] x,x′∈X,λ∈[0,1]有 λ f ( x ) ( 1 − λ ) f ( x ′ ) ≥ f ( λ x ( 1 − λ ) x ′ ) \lambda f(x) (1-\lambda)f(x) \geq f(\lambda x (1-\lambda)x) λf(x)(1−λ)f(x′)≥f(λx(1−λ)x′);詹森不等式凸性定义的推广 ∑ i α i f ( x i ) ≥ f ( ∑ i α i x i ) , ∑ i α i 1 \sum_i\alpha_if(x_i)\geq f(\sum_i\alpha_i x_i),\sum_i\alpha_i1 ∑iαif(xi)≥f(∑iαixi),∑iαi1;凸函数的性质凸函数的局部极小值是全局极小值
i. 特征值和特征向量 A v λ v Av\lambda v Avλv其中 v v v是特征向量 λ \lambda λ是特征值例如对于 A [ 2 1 2 3 ] A \begin{bmatrix} 2 1\\ 2 3\end{bmatrix} A[2213]他的特征值是 4 , 1 4,1 4,1对应的两个特征向量是 [ 1 2 ] \begin{bmatrix} 1\\ 2\end{bmatrix} [12]和 [ 1 − 1 ] \begin{bmatrix} 1 \\ -1\end{bmatrix} [1−1] ii. 求解特征值和特征向量 ( A − λ I ) v 0 (A-\lambda I)v 0 (A−λI)v0所以 ( A − λ I ) (A-\lambda I) (A−λI)不可逆也就是 d e t ( A − λ I ) 0 det(A-\lambda I) 0 det(A−λI)0即可解得特征值 iii. 延续上面的例子特征向量组成的矩阵 W [ 1 1 − 1 2 ] W\begin{bmatrix}1 1\\-1 2\end{bmatrix} W[1−112]特征值组成的矩阵 ∑ [ 1 0 0 4 ] \sum\begin{bmatrix}1 0\\0 4\end{bmatrix} ∑[1004]可得 A W W ∑ AWW\sum AWW∑而且 W W W是可逆的所以等式两边同乘 W − 1 W^{-1} W−1得到 A W ∑ W − 1 AW\sum W^{-1} AW∑W−1 iv. 一些良好的性质 A n W ∑ n W − 1 A^n W\sum^n W^{-1} AnW∑nW−1也就是对应一个矩阵的乘方进行特征值分解只需要将特征值进行同样的n次方即可此时n需要时正数对于矩阵的求逆 A − 1 W ∑ − 1 W − 1 A^{-1}W\sum^{-1}W^{-1} A−1W∑−1W−1可以看到对矩阵的逆进行特征值分解直接对特征值求逆即可矩阵的行列式等于矩阵的特征值的乘积 d e t ( A ) λ 1 ⋯ λ n det(A) \lambda_1\cdots \lambda_n det(A)λ1⋯λn矩阵的秩等于非0特征值的个数 v. https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/eigendecomposition.html