重庆商城网站建设公司,新品上市怎么做宣传推广,wordpress 502,帝国行业网站模板ML学习笔记
Chapter 1 – The Machine Learning landscape
1.如何定义机器学习#xff1f;
Answer#xff1a;机器学习是一门通过编程让计算机从数据中进行学习的科学#xff08;和艺术#xff09;。
2.机器学习在哪些问题上表现突出#xff0c;你能给出四种类型吗
Answer机器学习是一门通过编程让计算机从数据中进行学习的科学和艺术。
2.机器学习在哪些问题上表现突出你能给出四种类型吗
Answer①有解决方案但需要进行大量人工微调/需要遵循大量规则的问题ML通常可以简化代码相比传统方法性能更好。②传统方法难以解决的复杂问题ML可能会找到背后的不易发现的规律。③环境有波动的情况下ML可以适应新数据。④可以洞察复杂问题进行数据挖掘。
3.什么是被标记的训练数据集
Answer在有监督学习中提供给算法的包含所需解决方案的训练集称为标签这些训练数据集是被标记的。
4.最常见的两种监督学习任务是什么
Answer分类任务和回归任务。
5.你能举出四种常见的无监督学习任务吗
Answer聚类算法、k-means算法、DBSCAN、分层聚类分析HCA、异常检测和新颖性检测、单类SVM、孤立森林、可视化和降维、主成分分析PCA、核主成分分析、局部线性嵌入LLE、t-分布随机近邻嵌入t-SNE、关联规则学习、Apriori、Eclat
6.要让一个机器人在各种未知的地形中行走你会用什么类型的ML算法
Answer强化学习。强化学习是ML的一个分支在一个给定的环境如游戏中训练代理机器人选择在一段时间内对它们的奖励最大化的行动。AlphaGo就是用强化学习构建的。
7.要将顾客分成多个组你会使用什么类型的算法
Answer聚类算法
8.你会将垃圾邮件检测的问题列为监督学习还是无监督学习
Answer有监督学习。现在最先进的垃圾邮件过滤器可能是使用深度神经网络模型对垃圾邮件和常规邮件进行训练完成动态信息。这使其成为一个在线的、基于模型的有监督学习系统。
9.什么是在线学习系统
Answer在线学习中可以循序渐进地给系统提供数据逐步积累学习成果。每一步学习都很快速成本低系统就可以根据飞速写入的最新数据进行学习。即——模型经过训练并投入生产环境然后随着新数据的进入而不断学习。 在线学习系统的一个重要参数就是适应不断变化的数据的速度这就是学习率。如果设置的学习率很高系统会迅速适应新数据而忘记旧数据。如果学习率过低学习就会更换满同样也会对新数据中的噪声/非典型数据点离群值的序列更不敏感。 在线学习系统的一个重大挑战——如果给系统输入不良数据系统的性能会逐渐下降。为了降低这种风险需要密切监控系统。一旦检测到性能下降就及时中断学习可能还需要恢复到之前的工作状态。同时还需要监控输入数据并对异常数据做出相应例如使用异常检测算法。
10.什么是核外学习
Answer对于超大数据集——超出一台计算机的主存储器的数据在线学习算法也同样使用这称为核外学习。算法每次只加载部分数据并针对这部分数据进行训练然后不断重复这个过程直到完成所有数据的训练。
11.什么类型的学习算法依赖相似度来做出预测
Answer基于实例的学习。如通过编程让系统标记与已知的垃圾邮件非常相似的邮件。系统用心学习这些例子通过相似度度量来比较新实例和已经学习的实例/子集从而泛化新实例。
12.模型参数与学习算法的超参数之间有什么区别
Answer超参数是学习算法的参数而并非模型的参数。因此它不受算法本身的影响。超参数必须在训练前设置好并且在训练期间保持不变。调整超参数是构建机器学习系统非常重要的组成部分。
13.基于模型的学习算法搜索的是什么它们最常使用的策略是什么它们如何做出预测
Answer基于模型的学习算法搜索的是模型参数。它们构建一组示例集的模型定义一个效用函数/适应度函数来衡量模型有多好或者定义一个成本函数来衡量模型有多差。然后使用该模型进行预测实现基于模型的学习。
14.你能给出ML中的四个主要挑战吗
Answer坏数据①训练数据的数量不足。大部分ML算法需要大量的数据才能正常工作。对复杂问题而言数据比算法更重要但是中小型数据集依然非常普遍。②训练数据不具有代表性。为了更好地实现泛化训练数据一定要非常有代表性。如果样本集太小会出现采样噪声即使非常大的样本数据如果采样方式欠妥也同样可能导致非代表性数据集。这就是所谓的采样偏差。③数据质量低。如果训练集的错误、异常值和噪声很多系统的表现不可能良好。因此清洗数据是模型训练前的一个必要步骤。④特征无关。只有训练数据中包含足够多的相关特征以及较少的无关特征系统才能够完成学习。一个成功的机器学习项目其关键部分是提取出一组好的用来训练的特征集。这个过程叫做特征工程。 坏算法①过拟合训练数据。当模型相对于训练数据的数量和噪度都过于复杂时会发生过拟合。可以通过简化模型、收集更多的训练数据、减少训练数据中的噪声等方式来解决。②欠拟合训练数据。模型太过简单而数据结构过于复杂。可以选择带有更多参数、更强大的模型通过特征工程给算法提供更好的特征集或者减少正则化超参数等模型约束。
15.如果模型在训练数据上表现很好但是应用到新实例上的泛化结果却很糟糕是怎么回事能给出三种可能的解决方案吗
Answer可能是模型对训练集过拟合。解决方案①使用更简单的模型进行训练②收集更多的训练数据③对数据进行特征工程减少训练数据的噪声。
16.什么是测试集为什么要用测试集
Answer测试集是数据分割出来的用来测试和评估模型的一部分数据。通过测试集来评估模型可以得到对这个误差的评估。这个估值可以显示模型在处理新场景时的能力。
17.验证集的目的是什么
Answer验证集是训练集的一部分可以在去掉验证集的训练集数据中训练具有各种超参数的多个模型并选择在验证集上表现最佳的模型。但是如果验证集太小模型评估将不够精确。
18.什么是train-dev集什么时候需要它怎么使用
Answertrain-dev集又称为训练开发集当数据来源不同时模型训练后在训练开发集上进行评估来判别模型效果不佳的原因。如果模型在train-dev集上表现良好在验证集上表现不佳则说明模型没有过拟合问题出自数据不匹配如果模型在train-dev集上表现不佳则说明模型在训练集上发生了过拟合。
19.如果你用测试集来调超参数会出现什么错误
Answer可能会导致模型对于新的数据不太可能有良好的表现。泛化能力较弱。 解决方法保持验证只需保持训练集的一部分来评估几种候选模型并选择最佳模型。新的保留集称为验证集/开发集。在此保持验证之后在完整的训练集包括验证集上训练最佳模型这就是你的最终模型。最后在测试集上评估该模型来获得泛化误差的估计值。