海珠建网站公,网站开发昆山,推广普通话的宣传标语,苏州网站开发电话一、进度概述 1、机器学习常识12-18#xff0c;以及相关代码复现
二、详情
12、SVM#xff08;support vector machines#xff0c;支持向量机#xff09; 实际上#xff0c;支持向量机是一种二分类模型#xff0c;它将实例的特征向量映射为空间中的一些点#xff0c;…一、进度概述 1、机器学习常识12-18以及相关代码复现
二、详情
12、SVMsupport vector machines支持向量机 实际上支持向量机是一种二分类模型它将实例的特征向量映射为空间中的一些点SVM 的目的就是想要画出一条线以 “最好地” 区分这两类点以至如果以后有了新的点这条线也能做出很好的分类。 关于例子与基本方案的说明这篇文章所提及的例题有助于理解机器学习常识 12: SVM_svm数据线性分类图-CSDN博客 需要注意的是对于上一个链接中的基本方案表明了 SVM 的核心思想就是最大间隔化。 关于核函数其使用动机可能如下 映射可以看作是一种拉伸把低维数据拉伸到了高维。虽然现在我们到了高维空间号称线性可分但是有几个困难 不知道什么样的映射函数是完美的。难以在各种映射函数中找到一个合适的。高维空间计算量比较大。这样就会产生维灾难计算内积是不现实的。 幸运的是在计算中发现我们需要的只是两个向量在新的映射空间中的内积结果而映射函数到底是怎么样的其实并不需要知道。于是这样就引入了核函数的概念。 核函数事先在低维上计算而将实质上的分类效果表现在了高维上也就是 包含映射内积相似度的逻辑。消除掉把低维向量往高维映射的过程。避免了直接在高维空间内的复杂计算。 即核函数除了能够完成特征映射而且还能把特征映射之后的内积结果直接返回。即把高维空间得内积运算转化为低维空间的核函数计算。 核函数相当于一种映射可以将原本不可线性分割的数据转化到另一个维度实现线性分割如典型的圆分布。上文链接中提到的那个不忍直视的例子虽然很不忍直视但确实挺生动形象的。 对于软间隔可以理解为针对极端数据的一种处理方法如下文中那个跑到红点中去的蓝点具体介绍如下SVM学习笔记二——软间隔soft-margin_soft-margin linear svm-CSDN博客 关于代码实现参考了以下文章中鸢尾花的实战 机器学习之支持向量机SVM-CSDN博客
13、PCAprincipal component analysis, 主成分分析 这个在线性回归分析中有讲过现回去复习复习同时也给出几个讲的挺好的文章链接。 降维算法之PCA从原理到应用8000多字助你彻底理解_pca降维-CSDN博客 PCA(主成分分析方法)-CSDN博客 其实 PCA 的数学基础十分厚实但是在数据处理中一般只是用于预处理。 从数学角度来讲这是因为1主成分各个特征维度的含义具有一定的模糊性不如原始样本特征的解释性强。2方差小的非主成分也可能含有对样本差异的重要信息因降维丢弃可能对后续数据处理有影响。 对于机器学习的角度则是 PCA 是一个无监督模型不一定适用于有监督数据。 这里关于特征选择和特征提取的例子中就能感受到一定程度上的缺陷。 特征选择是指从已有的特征里面选择出一个子集. 例如: 身高、体重、性别、年龄、体温、血相等等, 如果要一个人是否患流感身高、体重等不但没有作用, 反而还会让分类器效果变差. 回头想想 NN, 在计算距离时考虑一些不相关的特征, 会使得相似的样本变得不相似. 特征提取则是指从已有特征中生成新的特征. 例如: 人们常说自己有多重, 然后表达想减肥的意愿. 但这种想法是错误的, 应该从身高和体重计算 BMI, 以此确定自己是否偏胖. 这里 “从计算 BMI”, 就是一个特征提取的过程. 总的来说, 特征选择相对简单, 而特征提取有很大的相像空间. 后面将会介绍的神经网络, 其最本质的任务就是特征提取. 14、半监督学习 基本概念 1监督学习 训练数据都有标签, 相应的任务为分类、回归等. 2无监督学习训练数据都没有标签, 相应的任务为聚类、特征提取 (如 PCA) 等. 3半监督学习部分训练数据没有标签, 相应任务与监督学习一致. 从三者的关系可以看出, 半监督学习是从监督学习与无监督学习自然推导出来的. 对于学习场景的理解除了文中举得十分形象的例子外以下链接中的讲解也十分不错。 半监督学习的一大意义在于, 它导出了学习场景这个概念. 上午来了 100 个就诊者, 主治医生啥也没说, 实习生自悟, 把他们分成几个簇, 并且无法解释每簇的语义 (是否患病之类), 这是无监督学习场景中的聚类问题.上午来了 100 个就诊者, 主治医生对每个人判断, 哪些患流感 (正例), 哪些没有 (负例). 实习生学习到流感的诊断方法. 下午来了新的就诊者, 实习生对他们进行诊断. 这是监督学习场景中的二分类问题.上午来了 100 个就诊者, 主治医生对其中的 40 个人判断, 哪些患流感 (正例), 哪些没有 (负例). 实习生对剩下的 60 人进行诊断. 这是封闭世界半监督学习场景中的二分类问题.上午来了 100 个就诊者, 主治医生对其中的 40 个人判断, 哪些患流感 (正例), 哪些没有 (负例). 下午来了新的就诊者, 实习生对他们进行诊断. 这是开放世界半监督学习场景中的二分类问题. 关于学习场景的理论讲解机器学习监督学习、无监督学习、半监督学习、强化学习-CSDN博客 关于常见半监督学习模型的讲解一文看遍半监督学习模型Semi-Supervised Learning_effective self-training for parsing-CSDN博客
15、主动学习 主动学习的提出其关键是如何更低成本的获得更多高质量的标签。 机器学习主要研究计算机如何利用经验数据提高自身性能。在监督学习中数据的质量和数量直接决定模型的性能高低监督学习不仅要求数据全部是标记好的并且需要大量的数据然而人工标注大量数据需要耗费巨大的时间和精力一个更合理的方案是挑选一部分数据进行标注这就要提到机器学习中的主动学习。 实际上不同数据样本对于学习模型的贡献度不一样过多的低质量数据反而会降低模型的鲁棒性如果我们能够选取一部分最有价值的数据进行标注就有可能仅基于少量数据就能获得同样高效的模型。实现这一目标的关键在于如何选择出最有价值的数据样本并去获取它们的标记信息。 主动学习地目的是通过标记少量的数据训练处表现较好的模型。其核心任务是制定选择样本的标准从而选择尽可能少的样本进行标注来选出一个好的学习模型。 关于主动学习更细节上的讲解可以参考这几篇文章 超详细的主动学习Active Learning介绍【理论代码】-CSDN博客 主动学习Active Learning概述及最新研究 从主动学习的提出我们可以发现其核心问题在于 “哪些样本的标签更有价值?”
代表性强的样本. 把数据进行聚类, 聚类中心的样本具有良好的代表性. 其它样本很可能与它有相同的标签. 用这种思想可以设计出基于聚类的主动学习方法.不确定性强的样本. 有些样本有墙头草的潜质, 难于界定正负. 如果知道它们的标签, 就可以使用 SVM 进行分类, 相应地, 这次样本可能成为支撑向量 (support vector).
16、代价敏感学习 引入代价敏感学习其意义在于使得模型与现实更加相符合。 代价是基础数据, 与应用有紧密联系. 测试代价. 很多数据不是免费的, 如体检时, 测血常规花 20 2020 元, 心电图花 15 1515 元, B 超花 200 200200 元. 这些代价被称为测试代价 (test cost).标记代价. 在主动学习场景下, 请专家给数据打标签需要付钱, 如每个标签花费 100 元. 这被称为标记代价 (label cost).误分类代价. 将患有流感的病人叫回家, 医院要赔偿 10 , 000 10,00010,000 元, 即 c (FN) 10 , 000 c(FN) 10,000c(FN)10,000; 将没有流感的就诊者留着住院治疗, 医院要赔偿 500 500500 元, 即 c (FP) 500 c(FP) 500c(FP)500. 相应地, 可以给出一个误分类代价矩阵.延迟代价. 不清楚就诊者是否患病, 让其留院观察, 就诊者的误工开销为 200 200200 元. 对于代价敏感学习需要注意的两点是
代价作为基础数据, 都应该事先给出, 要么专家给出, 要么制度给出. 它们必须是输入, 而绝不会是输出 (被机器学习出来). 这是常识.代价敏感学习的优化目标必须由代价定义, 而不应该是准确率之类. 同时也补充关于代价敏感错误率的相关知识误分类代价与类不均衡数据-CSDN博客 这个例子在线性回归分析中着重讲过好几次其实第一二类错误有着其在具体问题下的现实意义在考虑实际中的预测时是需要考虑到这点的。
17、多标签学习 多标签在我们的生活中是十分常见的最典型的包括影视作品的分类比如科幻、动作等。多标签学习所主要应对的问题有以下三种
标签相关性. 例如, 从训练数据看, 有猫和狗的时候, 多半也有老鼠. 根据这种规律就可以把一些图片中不明显的老鼠找出来. 如何有效利用标签相关性, 是多标签学习的核心问题.标签稀疏性. 共有 100 种可能的动物, 但每张图片里一般只出现 1–5 种, 或者某些动物仅在少于 10 张图片里出现. 在极限多标签中, 标签稀疏性可能低于 1 % 1\%1%.数据稀疏性. 数据的多个属性值为空, 或者无效. 在极限多标签中很严重. 对于多标签学习理论上的学习可以参考这三篇文章 多标签学习之白话版_跨标签学习-CSDN博客 多标签学习之数学语言版_arg min∥y xw∥2 λ∥w∥1, 1维向量-CSDN博客 论文笔记多标签学习综述A review on multi-label learning algorithms - PilgrimHui - 博客园 (cnblogs.com) 对于常见的多标签学习模型可以参考以下文章 多标记学习大大杂烩有点乱_多标签学习-CSDN博客
18、多示例学习 与多标签学习类似, 多示例学习从数据的角度进行概念的扩展. 一个数据集由若干包 (bag) 组成, 每个包有若干示例 (即样本、对象, sample). 如果某个包中含有至少一个正样本, 则它为正包, 否则为负包. 感性上理解有点像逆向的聚类算法不知道对不对。 对于这个正包的理解这篇文章给的两个例子还比较形象多示例学习Multiple Instance Learning-CSDN博客 常见方案如下
包映射. 将一个包映射为一个对象.新的距离计算方式. 两个包的距离可以定义为: 最近点对的距离;最远点对的距离;包重心之间的距离. 最后这里再给出进一步了解多示例学习的一些参考多示例学习 (multi-instance learning, MIL) 学习路线 (归类、重点文章列举、持续更新)_mil领域 llm-CSDN博客 后记 在完成今天的学习任务后有一个挺大的感触是机器学习其实是比较依赖统计学的。对于很多学习从数学原理上的分析个人认为这其实与线性回归分析中讲过的挺多概念重合了。统计学更着重于如何从数学上去实现而机器学习则是着重于如何把这个人工的任务交给机器从而更高效的获得更准确的信息。 还需要注意的一点是实际上对每个概念的理解还是很有限的很多东西由于能力的不足还停留在表面甚至连深一点的问题都提不出来这是比较致命的在后续需要补足相关训练来加深理解。