门户网站做的比较好的公司,微信商城网站案例展示,网站建设珠海 新盈科技,精美免费ppt模板下载学习视频#xff1a;第1章-绪论_哔哩哔哩_bilibili 西瓜书对应章节#xff1a; 第一章 第二章 文章目录 机器学习三观What#xff1a;什么是机器学习#xff1f;Why: 为什么要学机器学习#xff1f;1. 机器学习理论研究2. 机器学习系统开发3. 机器学习算法迁移 第1章-绪论_哔哩哔哩_bilibili 西瓜书对应章节 第一章 第二章 文章目录 机器学习三观What什么是机器学习Why: 为什么要学机器学习1. 机器学习理论研究2. 机器学习系统开发3. 机器学习算法迁移 AI4. AI 应用方向研究NLP, CV, 推荐系统 How: 怎样学习深度学习- 纯理论研究- 系统的开发- 算法迁移 AI for Science)- AI 应用方向研究 基础核心知识概念假设空间 版本空间算法样本示例标记样本空间 标记空间机器学习任务分类 根据标记取值类型不同机器学习任务分类 根据是否用到标记信息数据集泛化分布归纳偏好 数据决定模型的上限算法则是让模型无限逼近上限- 数据决定模型的上限 模型评估与选择- 经验误差与过拟合- 精度- 训练误差 泛化误差- 过拟合- 欠拟合 - 评估方法- 留出法- 交叉验证法- 自助法- 验证集 性能度量- 均方误差- 错误率- 精度- 查准率 查全率- F1 度量- ROC 曲线- 代价敏感错误率 代价曲线- 比较检验- 假设检验 - 交叉验证T检验- McNemar 检验- Friedman 检验 和 Nemenyi 后续检验- 偏差与方差 机器学习三观
What什么是机器学习
关键词“学习算法”
Why: 为什么要学机器学习
1. 机器学习理论研究
2. 机器学习系统开发
3. 机器学习算法迁移 AI
4. AI 应用方向研究NLP, CV, 推荐系统
How: 怎样学习深度学习
- 纯理论研究
- 系统的开发 - 算法迁移 AI for Science)
- AI 应用方向研究 基础核心知识概念
假设空间 版本空间
假设空间定义了所有可能的解决方案版本空间则是在考虑了训练数据后认为可能正确的解决方案的集合
算法
从数据中学得模型的“具体方法”其产出结果称为“模型”
样本示例
关于一个事件或对象的描述。用向量进行表示向量中的各个维度称为“特征”或“属性“。向量中的元素用分号 “;” 表示为列向量用逗号 ,表示为行向量。
标记
学习样本在某方面的表现存在潜在规律的的信息。
样本空间 标记空间
所有可能的输入数据或特征向量的集合 所有可能的输出标签或目标值的集合
机器学习任务分类 根据标记取值类型不同
标记取值为“离散型” 任务为 分类标记取值为 “连续型” 任务为 回归
机器学习任务分类 根据是否用到标记信息
训练阶段有用到标记信息此类任务为 “监督学习”训练阶段没用到标记信息此类任务为 “无监督学习”
数据集
通常用集合表示一般同一份数据集中的每个样本都含相同个数的特征样本 x i j x_{ij} xij 表示样本 x i x_i xi 在第 j 个属性上的取值
泛化
模型对未在训练过程中见过的数据进行准确预测的能力
分布
概率论中的概率分布。
归纳偏好
不同的机器学习算法有不同的偏好
最常用的评价方法是 - 基于模型在测试集上的表现评判模型的优劣。机器学习算法没有绝对的优劣之分只有是否适合当前待解决问题之分。没有免费的午餐定理NFL)众算法生而平等哪个算法训出来的模型在测试集上表现好哪个算法 nb。
数据决定模型的上限算法则是让模型无限逼近上限
- 数据决定模型的上限
数据是指从 数据量 和 特征工程 两个角度考虑
通常数据量越大模型效果越好通常对特征数值化越合理特征收集越全越细致模型效果通常越好 模型评估与选择
- 经验误差与过拟合
- 精度
- 训练误差 泛化误差
训练集上的误差新样本上的误差
- 过拟合
- 欠拟合 - 评估方法
- 留出法
直接将数据集划分为 数据集 和 测试集 。
训练集和测试集要尽量保证数据分布的一致性采用采样类别比例相似的 分层采样 。
- 交叉验证法
先将数据集划分为 k 个互斥子集尽可能保持数据分布的一致性然后以 k-1 个子集的并集作为训练集余下子集作为测试集进行k次训练测试最终返回训练结果的均值。 有m个数据令 k m则为 留一法 。
- 自助法
可重复有放回采样。
训练集的数量会增多有可能会改变数据集的分布
- 验证集
对模型进行评估测试的数据集。
性能度量
- 均方误差 - 错误率
分类错误样本数占样本总数的比例。 - 精度
分类正确的样本数占样本总数的比例。 - 查准率 查全率 - F1 度量 - ROC 曲线 - 代价敏感错误率 代价曲线 X轴 -
Y轴 - - 比较检验
- 假设检验 - 交叉验证T检验
- McNemar 检验 - Friedman 检验 和 Nemenyi 后续检验 - 偏差与方差 偏差 度量了 学习算法的期望预测与真实结果的偏离程度刻画了学习算法本身的拟合能力方差 度量了同样大小的训练集的变动导致的学习性能的变化刻画了数据扰动造成的影响噪声 表达了当前任务上任何学习算法所能达到的期望泛化的误差的下界刻画了学习问题本身的难度泛化性能是由 学习算法的能力、数据的充分性、学习任务本身的难度 共同决定的。为了取得良好的泛化性能需要使得方差、偏差都较小。