当前位置：首页 > news >正文

最好的产品网站建设网站建设系统设计

news 2026/4/29 15:41:05

最好的产品网站建设,网站建设系统设计,不同企业的网络营销网站,企业手机网站建设需要注意哪些第二章模型评估与选择第 2 章模型评估与选择2.1 经验误差与过拟合1. 错误率 / 精度 / 误差2. 训练误差 / 经验误差 / 泛化误差3. 过拟合 / 欠拟合4. 学习能力5. 模型选择 2.2 评估方法1. 评估方法概述2. 留出法3. 交叉验证法4. 自助法5. 调参 / 最终模型 2.3 性能度量1. 回归… 第二章模型评估与选择第 2 章模型评估与选择2.1 经验误差与过拟合1. 错误率 / 精度 / 误差2. 训练误差 / 经验误差 / 泛化误差3. 过拟合 / 欠拟合4. 学习能力5. 模型选择 2.2 评估方法1. 评估方法概述2. 留出法3. 交叉验证法4. 自助法5. 调参 / 最终模型 2.3 性能度量1. 回归任务的性能度量2. 分类任务性能度量方法 —— 错误率 / 精度3. 分类任务性能度量方法 —— 查准率 / 查全率 / F14. ROC 曲线5. AUC 曲线 2.4 比较检验1. 什么是比较验证2. 假设验证 2.5 偏差与方差1. 偏差与方差2. 泛化误差 / 偏差 / 方差 / 噪声第 2 章模型评估与选择 2.1 经验误差与过拟合 1. 错误率 / 精度 / 误差错误率error rate分类错误的样本数占样本总数的比例。精度accuracy分类正确的样本数占样本总数的比例。误差error学习器的实际预测输出与样本的真实输出质检的差异。 2. 训练误差 / 经验误差 / 泛化误差 **训练误差training error**或经验误差empirical error学习器在训练集上的误差。泛化误差generalization error模型在新样本上的误差。 3. 过拟合 / 欠拟合过拟合overfitting 指的是机器学习模型在训练数据集上表现非常好但在新的测试数据上表现较差的情况。过拟合的主要原因是模型过于复杂拟合了训练数据集中的噪声和细节导致泛化能力差。简单来说过拟合是指模型过分追求“记忆”训练数据集而忽略了“理解”数据背后的规律导致在新的数据上表现不佳。过拟合可以通过以下方法来避免增加更多的训练数据使得模型更具泛化能力。减少特征数量避免过于复杂的模型。增加正则化项如L1、L2正则化等使得模型更加平滑。使用dropout等技巧随机削弱一部分神经元的输出减少模型的复杂性。欠拟合underfitting 指的是机器学习模型在训练数据集上和测试数据集上的表现都比较差这意味着模型没有很好地捕捉到数据的规律和模式。欠拟合的主要原因是模型过于简单无法拟合数据集的复杂度和非线性关系。简单来说欠拟合是指模型过于简单无法捕捉到数据集的全部信息。欠拟合可以通过以下方法来避免增加更多的特征以更好地捕捉数据的复杂性和非线性关系。增加模型的复杂度如增加层数或节点数等。减少正则化项的强度使得模型更加灵活。使用更复杂的算法或模型如神经网络等。需要注意的是过度拟合和欠拟合都会导致模型的泛化能力下降因此需要在两者之间进行权衡选择最适合的模型和算法。 4. 学习能力机器学习中模型的学习能力指的是模型通过训练数据学习到数据之间的关系和规律的能力。具体来说模型的学习能力可以体现在以下方面模型的表示能力模型的表示能力越强它能够拟合的函数空间就越大因此可以更好地逼近数据的真实分布。模型的泛化能力泛化能力指的是模型对于新数据的预测能力。当模型的泛化能力很强时它可以对未见过的数据做出准确的预测。反之如果模型的泛化能力很差则无法对新数据进行准确的预测。模型的训练能力模型的训练能力指的是它能够从训练数据中学习到什么程度。当模型的训练能力很强时它可以从少量的训练数据中学习到更多的信息从而更好地逼近数据的真实分布。模型的收敛速度模型的收敛速度指的是它学习到数据分布的速度。当模型的收敛速度很快时它可以在较短的时间内学习到数据之间的关系和规律。在机器学习中选择一个具有良好学习能力的模型是非常重要的。不同的机器学习算法和模型具有不同的学习能力因此需要根据具体的问题和数据选择最适合的算法和模型。学习能力是否 “过于强大”是由学习算法和数据内涵共同决定的。 5. 模型选择在机器学习中选择合适的模型对于建立一个成功的机器学习系统来说非常重要。以下是一些常见的模型选择方法经验法则根据问题的性质和数据的特点选择合适的模型。例如如果数据具有线性关系可以选择线性回归模型如果数据具有非线性关系可以选择支持向量机或神经网络等非线性模型。交叉验证使用交叉验证方法评估不同模型的性能并选择最佳模型。交叉验证将数据集分为训练集和测试集然后多次训练和测试模型并计算平均测试误差。通过比较不同模型的测试误差可以选择性能最佳的模型。正则化方法使用正则化方法对不同的模型进行比较选择最佳的模型。正则化方法通过对模型参数进行约束来避免过拟合同时减少模型的复杂度从而提高模型的泛化能力。模型融合方法使用多个模型组合来提高预测性能。模型融合方法可以是简单的平均或加权平均也可以是基于模型的集成方法例如随机森林和Boosting等。模型选择工具使用一些开源的模型选择工具例如scikit-learn和TensorFlow等这些工具提供了多种不同的机器学习算法和模型同时提供了评估和比较不同模型的方法。需要注意的是在选择模型时需要考虑多个因素例如数据的特点、问题的性质、模型的复杂度、模型的训练时间等等。选择合适的模型需要综合考虑这些因素并根据具体的问题和需求来进行选择。 2.2 评估方法 1. 评估方法概述通常我们可通过实验测试来对学习器的泛化误差进行评估并进而做出选择。为此需使用一个 “测试集testomg set” 来测试学习器对新样本的判别能力然后以测试集上的 “测试误差tesing error” 作为泛化误差的近似。通常我们假设测试样本也是从样本真实分布中独立同分布采样而得。但需要注意的是测试集应该尽可能与训练集互斥即测试集尽量不在训练集中出现、未在训练过程中使用过。 2. 留出法留出法hold-out直接将数据集 D D D 划分为两个互斥的集合其中一个集合作为训练集 S S S另外一个作为测试集 T T T即 D S ⋃ T DS \bigcup T DS⋃T S ⋂ T ⊘ S \bigcap T \oslash S⋂T⊘。在 S S S 上训练出模型后用 T T T 来评估其测试误差作为对泛化误差的估计。 3. 交叉验证法交叉验证法cross valida tion先将数据集 D D D 划分为 k k k 个大小相似的互斥子集即 D D 1 ∪ D 2 ∪ . . . ∪ k DD_1 \cup D_2 \cup ...\cup_k DD1∪D2∪...∪k D i ⋂ D j ⊘ D_i \bigcap D_j \oslash Di⋂Dj⊘。每个子集 D i D_i Di 都尽可能保持数据分布的一致性即从 D D D 中通过分层采样得到。然后每次用 k − 1 k-1 k−1 个子集的并集作为训练集余下的那个子集作为测试集这样就可获得 k k k 组训练 / 测试集从而可进行 k k k 次训练和测试最终返回的是这 k k k 个测试结果的均值。显然交叉验证法评估结果的稳定性和保真性在很大程度上取决于 k k k 的取值为强调这一点通常把交叉验证法称为 “ k k k 折交叉验证” k k k-fold cross validation。 k k k 最常用的取值是 10此时称为 10 折交叉验证其他常用的 k k k 值有 5、20 等。 4. 自助法自助法bootstrapping是一种非参数统计方法用于从有限的样本数据集中估计统计量的分布和置信区间。自助法是通过从原始数据集中随机抽取样本形成新的数据集并重复这个过程多次来得到估计统计量的分布。这个过程可以产生多个样本数据集每个数据集的样本数和原始数据集相同但可能包含重复的样本数据。自助法的基本思想是通过对原始数据进行有放回的抽样来模拟从总体中抽样。由于样本的重复采样部分样本可能在某次采样中被重复选择而另一些样本可能在某些采样中没有被选择。这样可以形成一个更广泛的样本空间并且可以通过这些不同的样本数据集来估计统计量的置信区间。自助法可以用于解决小样本数据集的统计问题并且具有一定的鲁棒性和准确性。例如在机器学习中自助法可以用于估计模型参数的置信区间从而评估模型的稳定性和准确性。自助法还可以用于特征选择、模型选择和模型融合等问题它是一种常用的非参数统计方法。 5. 调参 / 最终模型大多数学习算法都有些参数 (parameter) 需要设定参数配置不同学得模型的性能往往有显著差别因此在进行模型评估与选择时除了要对适用学习算法进行选择还需对算法参数进行设定这就是通常所说的 “参数调节” 或简称 “调参” (parameter tuning)。 2.3 性能度量 1. 回归任务的性能度量回归任务最常用的性能度量是 “均方误差”mean squared error。 E ( f ; D ) 1 m ∑ i 1 m ( f ( x i ) − y i ) 2 (2.2) E(f ; D)\frac{1}{m} \sum_{i1}^m\left(f\left(\boldsymbol{x}_i\right)-y_i\right)^2 \tag{2.2} E(f;D)m1i1∑m(f(xi)−yi)2(2.2) 更一般的对于数据分布 D \mathcal{D} D 和概率密度函数 p ( ⋅ ) p(\cdot) p(⋅)均方误差可描述为 E ( f ; D ) ∫ x ∼ D ( f ( x ) − y ) 2 p ( x ) d x (2.3) E(f ; \mathcal{D})\int_{\boldsymbol{x} \sim \mathcal{D}}(f(\boldsymbol{x})-y)^2 p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \tag{2.3} E(f;D)∫x∼D(f(x)−y)2p(x)dx(2.3) 2. 分类任务性能度量方法 —— 错误率 / 精度错误率是分类错误的样本数占样本总数的比例精度则是分类正确的样本数占样本总数的比例。对样本集 D \mathcal{D} D分类错误率定义为 E ( f ; D ) 1 m ∑ i 1 m I ( f ( x i ) ≠ y i ) (2.4) E(f ; D)\frac{1}{m} \sum_{i1}^m \mathbb{I}\left(f\left(\boldsymbol{x}_i\right) \neq y_i\right) \tag{2.4} E(f;D)m1i1∑mI(f(xi)yi)(2.4) 精度则定义为 acc ⁡ ( f ; D ) 1 m ∑ i 1 m I ( f ( x i ) y i ) 1 − E ( f ; D ) . (2.5) \begin{aligned} \operatorname{acc}(f ; D) \frac{1}{m} \sum_{i1}^m \mathbb{I}\left(f\left(\boldsymbol{x}_i\right)y_i\right) \\ 1-E(f ; D) . \end{aligned} \tag{2.5} acc(f;D)m1i1∑mI(f(xi)yi)1−E(f;D).(2.5) 更一般的对于数据分布 D \mathcal{D} D 和概率密度函数 p ( ⋅ ) p(\cdot) p(⋅)错误率与精度可分别描述为 E ( f ; D ) ∫ x ∼ D I ( f ( x ) ≠ y ) p ( x ) d x (2.6) E(f ; \mathcal{D})\int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x}) \neq y) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \tag{2.6} E(f;D)∫x∼DI(f(x)y)p(x)dx(2.6) acc ⁡ ( f ; D ) ∫ x ∼ D I ( f ( x ) y ) p ( x ) d x 1 − E ( f ; D ) (2.7) \begin{aligned} \operatorname{acc}(f ; \mathcal{D}) \int_{\boldsymbol{x} \sim \mathcal{D}} \mathbb{I}(f(\boldsymbol{x})y) p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x} \\ 1-E(f ; \mathcal{D}) \tag{2.7} \end{aligned} acc(f;D)∫x∼DI(f(x)y)p(x)dx1−E(f;D)(2.7) 3. 分类任务性能度量方法 —— 查准率 / 查全率 / F1 对于二分类问题如下所示全称真实值(标签label)预测值(predict)TPTrue Positive11FPFalse Positive01TNTrue Negative00FNFalse Negative10 查准率precision P T P T P F P (2.8) P\frac{T P}{T PF P} \tag{2.8} PTPFPTP(2.8) 查全率recall R T P T P F N (2.9) R\frac{T P}{T PF N} \tag{2.9} RTPFNTP(2.9) 更常用的是 F 1 F1 F1 度量 F 1 2 × P × R P R 2 × T P 样例总数 T P − T N . (2.10) F 1\frac{2 \times P \times R}{PR}\frac{2 \times T P}{\text { 样例总数 }T P-T N} \text {. } \tag{2.10} F1PR2×P×R 样例总数 TP−TN2×TP. (2.10) 4. ROC 曲线 ROCReceiver Operating Characteristic曲线是一种用于评估二元分类器性能的图形工具。ROC曲线以真阳性率True Positive RateTPR为纵坐标以假阳性率False Positive RateFPR为横坐标用于衡量分类器的敏感性和特异性。 T P R T P T P F N (2.18) \mathrm{TPR}\frac{T P}{T PF N} \tag{2.18} TPRTPFNTP(2.18) F P R F P T N F P (2.19) \mathrm{FPR}\frac{F P}{T NF P} \tag{2.19} FPRTNFPFP(2.19) 在ROC曲线中每个点代表分类器在不同的阈值下的TPR和FPR。通过改变分类器的阈值可以得到不同的点并将这些点连接起来得到ROC曲线。曲线下面积Area Under CurveAUC可以用来衡量分类器的性能AUC的取值范围为0.5到1AUC越大表示分类器的性能越好。 ROC曲线的优点在于不受分类器阈值的影响同时可以通过比较不同分类器的ROC曲线来评估它们的性能。ROC曲线也适用于不平衡数据集的分类问题其中一类样本数量较少例如医学诊断和欺诈检测等应用场景。需要注意的是ROC曲线不能直接用于比较多类别分类器的性能。对于多类别分类问题可以使用一些衍生自ROC曲线的评估指标例如微平均micro-averaging和宏平均macro-averaging等。下面是一个示例ROC曲线在这个例子中横轴是假阳性率False Positive RateFPR纵轴是真阳性率True Positive RateTPR。假阳性率是指实际为负样本但被错误地预测为正样本的样本占所有负样本的比例真阳性率是指实际为正样本且被正确地预测为正样本的样本占所有正样本的比例。 ROC曲线显示了分类器在不同阈值下的性能阈值从左上角到右下角逐渐增加。曲线下面积Area Under CurveAUC为0.91说明该分类器的性能很好。通常AUC的取值范围为0.5到1AUC越大表示分类器的性能越好。在实际应用中可以根据ROC曲线选择合适的分类器和阈值以达到最佳的分类性能。 5. AUC 曲线 AUCArea Under Curve曲线是ROCReceiver Operating Characteristic曲线下方的面积用于评估二元分类器的性能。AUC曲线常用于评估分类器的准确性、鲁棒性和可靠性。 A U C 1 2 ∑ i 1 m − 1 ( x i 1 − x i ) ⋅ ( y i y i 1 ) (2.20) \mathrm{AUC}\frac{1}{2} \sum_{i1}^{m-1}\left(x_{i1}-x_i\right) \cdot\left(y_iy_{i1}\right) \tag{2.20} AUC21i1∑m−1(xi1−xi)⋅(yiyi1)(2.20) AUC的取值范围在0.5到1之间其中0.5表示随机分类器而1表示完美分类器。在AUC为0.5到1之间的情况下AUC值越大分类器的性能越好。AUC曲线的斜率越大分类器的性能也越好。 AUC曲线可以解决在不同阈值下分类器性能的变化问题并且可以对不同的分类器进行比较。对于大多数实际问题AUC都是一个有用的度量标准。需要注意的是AUC曲线并不适用于多类别分类问题因为ROC曲线只适用于二元分类问题。在多类别分类问题中可以使用一些其他的评估指标例如混淆矩阵、准确率、召回率等。以下是一个AUC曲线的例子这个例子展示了一个分类器的AUC曲线。曲线下方的面积AUC为0.87表示该分类器的性能相对较好。在这个例子中分类器的预测结果可以根据阈值进行分类阈值从左上角到右下角逐渐增加。在最优阈值处该分类器的真阳性率TPR为0.75假阳性率FPR为0.15。在实际应用中AUC曲线可以用来选择最佳分类器和阈值以最大化分类性能。由于AUC曲线不受分类器阈值的影响因此它通常比其他评估指标更适合评估分类器的性能。 2.4 比较检验 1. 什么是比较验证在机器学习中比较验证是一种通过比较不同模型的性能来选择最佳模型的方法。比较验证通常涉及以下步骤数据集划分将数据集划分为训练集和测试集。通常使用交叉验证方法来确保模型在不同的数据集上进行训练和测试。模型训练使用训练集训练不同的模型。模型评估使用测试集评估模型的性能并计算模型的指标如准确率、召回率、F1分数、AUC等。模型比较比较不同模型的性能指标并选择最佳模型。比较验证的目的是找到最佳的模型以在未知数据上实现最佳性能。由于不同的模型在不同的数据集上表现可能不同因此比较验证是一种重要的机器学习技术。通常比较验证需要在多个数据集上进行以避免因特定数据集导致的偏差。比较验证可以使用多种方法如留出法、交叉验证和自助法等。其中交叉验证是最常用的方法之一它可以有效地利用数据并减少估计误差。交叉验证通常可以分为k折交叉验证、留一交叉验证等。 2. 假设验证在机器学习中假设验证是一种评估模型的泛化能力的方法也称为模型选择。假设验证的基本思想是将数据集划分为训练集、验证集和测试集。模型在训练集上训练在验证集上进行验证和参数调整最终在测试集上进行测试。假设验证通常涉及以下步骤数据集划分将数据集划分为训练集、验证集和测试集。训练集用于模型训练验证集用于模型选择和参数调整测试集用于模型测试。模型训练使用训练集训练模型。模型选择使用验证集评估不同模型的性能并选择最佳模型。参数调整使用验证集调整模型的参数。模型测试使用测试集评估最终模型的性能。假设验证的目的是选择最佳模型并避免过度拟合或欠拟合。过度拟合是指模型在训练数据上表现良好但在测试数据上表现较差。欠拟合是指模型无法捕捉数据的复杂性导致在训练和测试数据上都表现不佳。假设验证可以帮助选择最佳模型以最大限度地提高模型的泛化性能。假设验证可以使用多种方法如留出法、交叉验证和自助法等。其中交叉验证是最常用的方法之一它可以有效地利用数据并减少估计误差。交叉验证通常可以分为k折交叉验证、留一交叉验证等。 2.5 偏差与方差 1. 偏差与方差在机器学习中方差Variance和偏差Bias是模型的两个重要性质。它们通常被用来描述模型的复杂度和泛化性能。偏差是指模型的预测结果与真实结果的平均差异也称为模型的拟合能力。低偏差的模型通常具有较好的拟合能力能够在训练数据上获得较好的性能。然而当模型太简单时它可能无法捕捉数据的复杂性导致欠拟合。因此适当的偏差通常需要保证模型具有一定的灵活性和能力以提高其泛化性能。方差是指模型在不同训练数据集上预测结果的差异也称为模型的泛化能力。高方差的模型通常具有过拟合的倾向即在训练数据上表现良好但在测试数据上表现较差。过度复杂的模型通常容易过拟合因为它们可以记忆训练数据中的噪声和异常值而不是学习数据的真实模式。为了平衡偏差和方差可以使用正则化方法、交叉验证和集成学习等技术来调整模型的复杂度和参数。例如正则化可以通过添加惩罚项来限制模型的复杂度从而减少方差。交叉验证可以用于估计模型的泛化性能并选择最佳模型。集成学习可以通过组合多个模型的预测结果来减少方差和偏差。 2. 泛化误差 / 偏差 / 方差 / 噪声泛化误差可分解为偏差、方差与噪声之和。 E ( f ; D ) bias ⁡ 2 ( x ) var ⁡ ( x ) ε 2 (2.42) E(f ; D)\operatorname{bias}^2(\boldsymbol{x})\operatorname{var}(\boldsymbol{x})\varepsilon^2 \tag{2.42} E(f;D)bias2(x)var(x)ε2(2.42) Smileyan 2023.05.01 01:22

查看全文

http://www.hkea.cn/news/14463378/