当前位置：首页 > news >正文

对网站的建议网站小样用什么做

news 2026/4/30 19:13:45

对网站的建议,网站小样用什么做,wordpress模板带后台,腾讯云wordpress搭建网站4. 模型的评估与选择 4.1 训练误差与测试误差假如存在样本容量为 N N N的训练集#xff0c;将训练集送入学习系统可以训练学习得到一个模型#xff0c;我们将这么模型用决策函数的形式表达#xff0c;也就是 y f ^ ( x ) y\hat{f}(x) yf^(x)#xff0c;关于模型的拟合…4. 模型的评估与选择 4.1 训练误差与测试误差假如存在样本容量为 N N N的训练集将训练集送入学习系统可以训练学习得到一个模型我们将这么模型用决策函数的形式表达也就是 y f ^ ( x ) y\hat{f}(x) yf^(x)关于模型的拟合是否好坏可以通过训练集计算训练误差进行衡量。而关于模型的预测效果也就是对未知数据预测效果的好坏可以通过测试集来衡量我们将测试集里所有的输入都放到预测系统里面通过训练所得到的模型就可以计算出一些列的预测值 y ^ i f ^ ( x i ) \hat{y}_i\hat{f}(x_i) y^if^(xi)这些预测值与真实值的差异就是测试误差测试误差可以衡量模型它的预测效果。根据上节课损失函数符号形式为 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)). 4.1.1 训练误差学习到的模型 Y f ^ ( X ) Y\hat{f}(X) Yf^(X)训练集Training Set T { ( x 1 , y 1 ) , ( x 2 , y 2 ) ⋯ , ( x N , y N ) } T\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right) \cdots,\left(x_{N}, y_{N}\right)\right\} T{(x1,y1),(x2,y2)⋯,(xN,yN)} 即有 N N N个样本训练误差Training Error R e m p ( f ^ ) 1 N ∑ i 1 N L ( y i , f ^ ( x i ) ) R_{e m p}(\hat{f})\frac{1}{N} \sum\limits_{i1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right) Remp(f^)N1i1∑NL(yi,f^(xi)) 计算了每个样本的损失取平均值经验损失 4.1.2 测试误差学习到的模型 Y f ^ ( X ) Y\hat{f}(X) Yf^(X)测试集Test Set T ′ { ( x 1 ′ , y 1 ′ ) , ( x 2 ′ , y 2 ′ ) ⋯ , ( x N ′ , y N ′ ) } T^{\prime}\left\{\left(x_{1^{\prime}}, y_{1^{\prime}}\right),\left(x_{2^{\prime}}, y_{2^{\prime}}\right) \cdots,\left(x_{N^{\prime}}, y_{N^{\prime}}\right)\right\} T′{(x1′,y1′),(x2′,y2′)⋯,(xN′,yN′)}测试误差Test Error e test 1 N ′ ∑ i ′ 1 N ′ L ( y i ′ , f ^ ( x i ′ ) ) e_{\text {test }}\frac{1}{N^{\prime}} \sum\limits_{i^{\prime}1}^{N^{\prime}} L\left(y_{i^{\prime}}, \hat{f}\left(x_{i^{\prime}}\right)\right) etest N′1i′1∑N′L(yi′,f^(xi′)) 测试误差就是对每个样本点计算损失然后计算损失的平均值。测试误差的每个样本点都来自于测试集训练误差的每个样本点都来自于训练集。 4.1.3 误差率与准确率误差率与准确率是测试误差的两个特例误差率Error Rate e test 1 N ′ ∑ i ′ 1 N ′ I ( y i ′ ≠ f ^ ( x i ′ ) ) e_{\text {test }}\frac{1}{N^{\prime}} \sum\limits_{i^{\prime}1}^{N^{\prime}} I\left(y_{i^{\prime}} \neq \hat{f}\left(x_{i^{\prime}}\right)\right) etest N′1i′1∑N′I(yi′f^(xi′)) 误差率所采用的损失函数是示性函数也就是 y i ′ ≠ y_{i^{\prime}}\ne yi′预测值 f ^ ( x i ′ ) \hat{f}\left(x_{i^{\prime}}\right) f^(xi′)的时候即为1 y i ′ y_{i^{\prime}} yi′预测值 f ^ ( x i ′ ) \hat{f}\left(x_{i^{\prime}}\right) f^(xi′)的时候即为0. 误差率实际上体现的是预测值和真实值不相等的样本点的个数占测试集里样本总个数的比例。准确率Accuracy r test 1 N ′ ∑ i ′ 1 N ′ I ( y i ′ f ^ ( x i ′ ) ) r_{\text {test }}\frac{1}{N^{\prime}} \sum\limits_{i^{\prime}1}^{N^{\prime}} I\left(y_{i^{\prime}}\hat{f}\left(x_{i^{\prime}}\right)\right) rtest N′1i′1∑N′I(yi′f^(xi′)) 准确率是真实值与预测值完全相等的样本点占测试集中所有样本点的比例。【注】 r test e test 1 r_{\text {test }}e_{\text {test }}1 rtest etest 1 4.2 过拟合与模型选择训练误差主要是衡量模型对已知数据的预测能力而测试误差主要是衡量模型对未知数据的预测能力在模型选择的时候我们都希望训练误差和测试误差都很小有的时候训练误差很小测试误差并不是很小这也就是过拟合这里就需要一个平衡。多项式拟合案例生成样本的时候在真实函数的基础上加了一个噪声 ε i \varepsilon_i εi样本为 y i sin ⁡ ( 2 π x i ) ε i y_i\sin (2\pi x_i)\varepsilon_i yisin(2πxi)εi假设 ε i \varepsilon_i εi是来自于一个正态分布的。将 x i x_i xi取来自 ( 0 , 1 ) (0,1) (0,1)上的10个均匀的点然后加上噪声 ε i \varepsilon_i εi得到输出 y i y_i yi图中黑色曲线是真实函数蓝色的点是10个样本点用来做训练集的。【注】正态分布正态分布Normal Distribution也叫高斯分布Gaussian Distribution是最常见的一种概率分布它在自然界和社会现象中广泛存在。正态分布的数学形式非常重要它不仅在统计学、机器学习中起到基础性作用还在很多其他领域如物理学、经济学、工程学等都有广泛应用。正态分布的定义正态分布是指一种连续型概率分布其概率密度函数PDF具有钟形曲线的形状。它的数学公式为 f ( x ∣ μ , σ ) 1 σ 2 π exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) f(x \mid \mu, \sigma)\frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) f(x∣μ,σ)σ2π 1exp(−2σ2(x−μ)2) 其中 μ \mu μ是正态分布的均值Mean表示数据的中心位置。 σ \sigma σ是正态分布的标准差Standard Deviation表示数据的分散程度或波动范围。 σ 2 \sigma ^2 σ2是正态分布的方差Variance表示数据的变异度。 x x x是变量它遵循正态分布。正态分布的特征对称性正态分布是完全对称的左右两边的形状和概率完全相同均值 μ \mu μ就是对称中心。钟形曲线它的概率密度函数呈现出钟形曲线的形状数据集中在均值附近随着远离均值概率密度逐渐减小。均值、中位数、众数相等在正态分布中均值、众数和中位数都重合在同一个位置上。68-95-99.7法则对于一个正态分布约68%的数据落在均值 ± 1 个标准差的范围内。约95%的数据落在均值 ± 2 个标准差的范围内。约99.7%的数据落在均值 ± 3 个标准差的范围内。正态分布的参数均值 μ \mu μ均值是正态分布的中心位置表示数据的集中趋势。它是分布的对称点。标准差 σ \sigma σ标准差衡量数据的离散程度也就是说数据的分布范围。标准差越大表示数据的分布越广波动越大标准差越小数据越集中。方差 σ 2 \sigma ^2 σ2方差是标准差的平方也是衡量数据离散程度的度量但通常我们更关注标准差。标准正态分布当均值 μ 0 \mu0 μ0且标准差 σ 1 \sigma 1 σ1时正态分布被称为标准正态分布。其概率密度函数简化为 f ( x ) 1 2 π exp ⁡ ( − x 2 2 ) f(x)\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{x^{2}}{2}\right) f(x)2π 1exp(−2x2) 标准正态分布的特点均值为0标准差为1。其形状与普通正态分布一样但标准差较小分布更集中。正态分布的应用正态分布在实际中有着广泛的应用以下是几个重要的领域自然界现象许多自然现象比如人的身高、体重、考试成绩等往往都接近于正态分布。换句话说在这些现象中大多数数据点都集中在均值附近极端的高或低值较少。统计学正态分布是许多统计推断方法如假设检验、置信区间估计等的基础。根据大数定律很多随机变量的样本均值会逐渐趋近于正态分布。中心极限定理中心极限定理指出很多独立同分布i.i.d.的随机变量的和或平均值将趋近于正态分布无论原始数据的分布是什么。这使得正态分布在统计学中具有非常重要的地位。正态分布的性质线性组合如果 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn是互相独立的正态分布随机变量那么它们的线性组合 a 1 X 1 a 2 X 2 … a n X n a_{1} X_{1}a_{2} X_{2}\ldotsa_{n} X_{n} a1X1a2X2…anXn也服从正态分布。最小方差性质在所有具有相同均值和方差的分布中正态分布具有最小的方差也就是说它的分布最紧密。正态分布的图形表示正态分布的概率密度函数图形通常呈现一个钟形曲线具有以下特点曲线在均值 μ \mu μ处达到最高点表示概率密度最大。曲线的两端渐近于 x x x轴表示概率逐渐减小但始终不为零。曲线的形状由标准差 σ \sigma σ决定标准差越大曲线越平坦标准差越小曲线越尖锐。下面我们通过 M M M次多项式对之前的数据进行拟合假设给定的数据是由 m m m次多项式生成的 f M ( x , w ) w 0 w 1 x w 2 x 2 ⋯ w M x M ∑ j 0 M w j x j f_{M}(x, w)w_{0}w_{1} xw_{2} x^{2}\cdotsw_{M} x^{M}\sum\limits_{j0}^{M} w_{j} x^{j} fM(x,w)w0w1xw2x2⋯wMxMj0∑Mwjxj 其中 M M M是最高次数 x x x是输入 w w w是参数向量。经验风险 L ( w ) 1 2 ∑ i 1 N ( f M ( x i , w ) − y i ) 2 L(w)\frac{1}{2} \sum\limits_{i1}^{N}\left(f_{M}\left(x_{i}, w\right)-y_{i}\right)^{2} L(w)21i1∑N(fM(xi,w)−yi)2 我们在拟合的时候采取使经验风险最小化的策略这里经验风险中的损失函数用的是平方损失也就是预测值与真实值差的平方那么经验风险就可以写成每个样本点的平方损失的和多了一个系数 1 2 \frac{1}{2} 21下面会解释。代入多项式 L ( w ) 1 2 ∑ i 1 N ( ∑ j 0 M w j x i j − y i ) 2 L(w)\frac{1}{2} \sum\limits_{i1}^{N}\left(\sum\limits_{j0}^{M} w_{j} x_{i}^{j}-y_{i}\right)^{2} L(w)21i1∑N(j0∑Mwjxij−yi)2 通过最小二乘法求解参数求解参数的时候可以通过对经验风险中的参数 w w w求导然后使导数等于0得到参数的表达式求导的时候平方损失函数会多出一个系数2这样就能和前面的系数 1 2 \frac{1}{2} 21把系数约掉所以系数变成 1 2 \frac{1}{2} 21只是为了计算方便加不加这个系数 1 2 \frac{1}{2} 21都不会影响最终结果。【注】最小二乘法最小二乘法Least Squares Method是一种数学优化方法主要用于回归分析中目的是通过最小化误差的平方和来找到最优的拟合模型。最小二乘法的核心思想是寻找一个函数模型使得实际观察值与该模型预测值之间的差异误差的平方和最小化。最小二乘法的基本原理在数据分析或回归分析中我们通常希望找到一个数学函数如直线、曲线等使得它能够尽可能地接近数据点。假设我们有一组数据点 ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) \left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \ldots,\left(x_{n}, y_{n}\right) (x1,y1),(x2,y2),…,(xn,yn)目标是找到一个函数 f ( x ) f(x) f(x)来拟合这些数据点。最小二乘法的基本步骤如下拟合函数与数据点之间的误差对于每个数据点 ( x i , y i ) (x_i,y_i) (xi,yi)拟合函数的预测值为 f ( x i ) f(x_i) f(xi)误差为 y i − f ( x i ) y_i-f(x_i) yi−f(xi).计算误差的平方和为了避免误差的正负相抵消我们对每个误差进行平方得到每个数据点的误差平方值 ( y i − f ( x i ) ) 2 (y_i-f(x_i))^2 (yi−f(xi))2然后将所有数据点的误差平方值加和得到总的误差平方和 S ∑ i 1 n ( y i − f ( x i ) ) 2 S\sum\limits_{i1}^{n}\left(y_{i}-f\left(x_{i}\right)\right)^{2} Si1∑n(yi−f(xi))2最小化误差平方和最小二乘法的目标就是找到使得误差平方和 S S S最小的函数模型 f ( x ) f(x) f(x). 线性回归中的最小二乘法对于线性回归模型 y β 0 β 1 x y\beta_0\beta_1x yβ0β1x我们需要通过最小化误差平方和 S S S来得到最优参数。首先误差平方和可以表示为 S ( β 0 , β 1 ) ∑ i 1 n ( y i − ( β 0 β 1 x i ) ) 2 S\left(\beta_{0}, \beta_{1}\right)\sum\limits_{i1}^{n}\left(y_{i}-\left(\beta_{0}\beta_{1} x_{i}\right)\right)^{2} S(β0,β1)i1∑n(yi−(β0β1xi))2 为求得最小值我们对 β 0 \beta_0 β0和 β 1 \beta_1 β1求偏导数并令其为零得到以下正态方程对 β 0 \beta_0 β0求偏导 ∂ S ∂ β 0 − 2 ∑ i 1 n ( y i − β 0 − β 1 x i ) 0 \frac{\partial S}{\partial \beta_{0}}-2 \sum\limits_{i1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right)0 ∂β0∂S−2i1∑n(yi−β0−β1xi)0对 β 1 \beta_1 β1求偏导 ∂ S ∂ β 1 − 2 ∑ i 1 n ( y i − β 0 − β 1 x i ) x i 0 \frac{\partial S}{\partial \beta_{1}}-2 \sum\limits_{i1}^{n}\left(y_{i}-\beta_{0}-\beta_{1} x_{i}\right) x_{i}0 ∂β1∂S−2i1∑n(yi−β0−β1xi)xi0 通过求解这两个方程可以得到 β 0 \beta_0 β0和 β 1 \beta_1 β1的最优解。最终最小二乘法得到的回归直线方程为 β ^ 1 n ∑ x i y i − ∑ x i ∑ y i n ∑ x i 2 − ( ∑ x i ) 2 β ^ 0 ∑ y i − β 1 ^ ∑ x i n \begin{array}{l} \hat{\beta}_{1}\frac{n \sum x_{i} y_{i}-\sum x_{i} \sum y_{i}}{n \sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}}\\ \hat{\beta}_{0}\frac{\sum y_{i}-\hat{\beta_{1}} \sum x_{i}}{n} \end{array} β^1n∑xi2−(∑xi)2n∑xiyi−∑xi∑yiβ^0n∑yi−β1^∑xi 其中 β ^ 0 \hat{\beta}_0 β^0最优截距 β ^ 1 \hat{\beta}_1 β^1是最优斜率。最小二乘法的应用最小二乘法被广泛应用于各种统计建模和数据分析任务中特别是在回归分析中。以下是一些常见的应用场景线性回归分析最小二乘法是线性回归的核心方法用于估计数据中自变量与因变量之间的关系。多项式回归通过对数据进行多项式拟合可以使用最小二乘法来找到最佳的多项式系数。曲线拟合不仅可以用于直线拟合最小二乘法还可以用于任意曲线例如指数曲线、对数曲线等的拟合。图像处理与信号处理在图像处理、图像压缩、信号处理等领域最小二乘法用于数据拟合、去噪声等任务。机器学习在机器学习中尤其是在回归模型中最小二乘法用于训练模型如线性回归。最小二乘法的优缺点优点简单有效最小二乘法计算简单易于理解和实现尤其适用于线性模型。计算效率高对于大多数问题最小二乘法的计算可以通过解析解得到效率较高。良好的统计性质在一些条件下最小二乘法估计是无偏的、有效的。缺点对异常值敏感最小二乘法对离群点异常值非常敏感少数的异常值可能会严重影响模型的拟合效果。假设数据线性最小二乘法通常假设数据之间存在线性关系如果数据呈现非线性特征最小二乘法可能效果不好。计算复杂度对于大量数据和高维度问题最小二乘法的计算可能会变得比较复杂尤其是当数据不满足某些条件时可能需要迭代求解。刚才的多项式拟合结果 M 0 M0 M0拟合曲线就是平行于 x x x轴的直线此时与真实曲线差距较大 M 1 M1 M1是一条直线稍微接近真实曲线 M 3 M3 M3的时候拟合曲线和真实曲线非常接近 M 9 M9 M9的时候拟合曲线通过了所有的样本点 M 9 M9 M9的时候参数有10个样本点也有10个所以这时候的拟合曲线恰好穿过所有样本点训练误差几乎为0但是 M 9 M9 M9是一个过拟合的现象。 4.2.1 过拟合过拟合Over-Fitting学习所得模型包含参数过多出现对已知数据预测很好但对未知数据预测很差的现象。这是 M M M的值与误差值的关系图没有给出 M 9 M9 M9的情况因为当 M 9 M9 M9的时候训练误差几乎为0但是测试误差会非常大远远超出了这个图用横轴 M M M代表了模型的复杂度 M M M越大模型越复杂而橙色的折线代表的是测试误差也就是模型对未知数据的训练能力而蓝色的线代表的是训练误差也就是模型对已知数据的预测能力。当 M 3 M3 M3的时候训练误差和测试误差都达到了最小点。上图中横轴代表模型复杂度纵轴代表预测误差随着模型复杂度的增加训练误差会越来越小但是测试误差会先减小达到一个最小值再增大所以选择模型的时候一定要注意防止过拟合的现象出现

查看全文

http://www.hkea.cn/news/14478664/