商业网站开发,单产品网站,郴州网站建设维护,营销策划公司有哪些职位文章目录 原理分析机器学习的两种典型任务机器学习分类总结数据机器学习分类解读简单复杂 原理分析 马克思主义哲学-规律篇 规律客观存在#xff0c;万事万物皆有规律。 机器学习则是多维角度拆解分析复杂事实数据#xff0c;发现复杂事实背后的规律#xff0c;然后将规律用… 文章目录 原理分析机器学习的两种典型任务机器学习分类总结数据机器学习分类解读简单复杂 原理分析 马克思主义哲学-规律篇 规律客观存在万事万物皆有规律。 机器学习则是多维角度拆解分析复杂事实数据发现复杂事实背后的规律然后将规律用多参数公式表达出来从而可以套用解决问题。
例如-分类任务 将西瓜拆分为x,y,z三个维度x瓜秧卷曲程度y瓜皮纹理z瓜蒂大小。 axbycz是|否甜 大量(x1,y1,z1)甜(x2,y2,z2)酸,(x3,y3,z3)甜等数据来求解a,b,c值。 后续便可以直接带入(Xn,Yn,Zn)到该公式中便可获取结果。 结论 不论是机器学习还是深度学习都是对大量数据的学习掌握数据背后的分布规律进而对符合该分布的其他数据进行准确预测。
机器学习的两种典型任务 简单的理解分类任务是对离散值进行预测根据每个样本的值/特征预测该样本属于类型A、类型B还是类型C例如情感分类、内容审核相当于学习了一个分类边界决策边界用分类边界把不同类别的数据区分开来。 回归任务是对连续值进行预测根据每个样本的值/特征预测该样本的具体数值例如房价预测股票预测等相当于学习到了这一组数据背后的分布能够根据数据的输入预测该数据的取值。 实际上分类与回归的根本区别在于输出空间是否为一个度量空间。
对于分类问题目的是寻找决策边界其输出空间B不是度量空间即“定性”。也就是说在分类问题中只有分类“正确”与“错误”之分至于分类到了类别A还是类别B没有分别都是错误数量1。 对于回归问题目的是寻找最优拟合其输出空间B是一个度量空间即“定量”通过度量空间衡量预测值与真实值之间的“误差大小”。当真实值为10预测值为5时误差为5预测值为8时误差为2。
机器学习分类
有监督学习监督学习利用大量的标注数据来训练模型对模型的预测值和数据的真实标签计算损失然后将误差进行反向传播计算梯度、更新参数通过不断的学习最终可以获得识别新样本的能力。 每条数据都有正确答案通过模型预测结果与正确答案的误差不断优化模型参数。 无监督学习无监督学习不依赖任何标签值通过对数据内在特征的挖掘找到样本间的关系比如聚类相关的任务。有监督和无监督最主要的区别在于模型在训练时是否需要人工标注的标签信息。 只有数据没有答案常见的是聚类算法通过衡量样本之间的距离来划分类别。 半监督学习利用有标签数据和无标签数据来训练模型。一般假设无标签数据远多于有标签数据。例如先使用有标签数据训练出初始模型然后用初始模型对无标签数据进行分类再使用正确分类的无标签数据训练初始模型不断迭代优化模型 利用大量的无标注数据和少量有标注数据进行模型训练 自监督学习机器学习的标注数据源于数据本身而不是由人工标注。目前主流大模型的预训练过程都是采用自监督学习将数据构建成完型填空形式让模型预测对应内容实现自监督学习。 通过对数据进行处理让数据的一部分成为标签由此构成大规模数据进行模型训练。 正确答案就是数据本身训练的数据就是挖空数据大模型填完空对比完整数据再次训练。 例如 原始数据我去玩剧本杀 挖空数据我去玩 大模型我去玩走路----对比正确答案----再次填空。。。。。。 优势 可供训练的数据极多且获取容易预处理简单暴力出奇迹。
远程监督学习主要用于关系抽取任务采用bootstrap的思想自力更生通过已知三元组在文本中寻找共现句自动构成有标签数据进行有监督学习。 基于现有的三元组收集训练数据进行有监督学习 强化学习强化学习是智能体根据已有的经验采取系统或随机的方式去尝试各种可能答案的方式进行学习并且智能体会通过环境反馈的奖赏来决定下一步的行为并为了获得更好的奖赏来进一步强化学习。 以获取更高的环境奖励为目标优化模型 总结
数据
实际上算法工程师大部分时间都是在处理数据调参训练模型效果不好再调参再训练。
数据标注是有监督学习最繁杂重要且难的工作有了成熟大模型之后就可以代替人工标注直接用大模型标注好数据然后再训练自己的模型牵一发动全身师夷长技以制夷。 ----注意确定非敏感数据让GPT标注防止泄露。 中大厂之间最大的壁垒是数据壁垒数据很重要。 数据标注Data Annotation是人工智能和机器学习领域中的一个重要过程它涉及将原始数据如文本、图片、语音、视频等加上标签或注释使得机器能够识别和理解这些数据。简而言之数据标注就是将非结构化的数据转换为结构化的数据以便机器可以对其进行处理和分析。 例如在自动驾驶技术的发展过程中需要大量的图像数据来训练车辆识别道路、行人和各种交通标志。数据标注师会处理这些图像数据为每张图片添加标签如“行人”、“自行车”、“红绿灯”等。这些标签帮助机器学习模型识别和分类图像中的不同对象。 具体到自动驾驶的例子数据标注师可能需要对一张捕捉到的道路场景图片进行标注标出图片中的车辆、行人、车道线、交通标志等。通过对大量此类图片进行标注机器学习模型能够学习如何识别和反应这些不同的元素从而实现在道路上的自主驾驶。 数据标注的过程不仅包括简单的分类还可以包括更复杂的注释任务如边界框的绘制如在图像中标识对象的位置、属性注释如描述对象的属性如颜色、形状等、关系注释如描述不同对象之间的关系以及自由文本注释等。随着人工智能技术的发展数据标注的要求也越来越高需要标注的数据从简单的客观信息延伸到更加复杂的主观判断和理解。 机器学习分类解读
当我们谈论机器学习时有监督学习、无监督学习、半监督学习、自监督学习、远程监督学习和强化学习是常见的学习方式。以下是对每种学习方式的例子用日常用品来解释。
简单 有监督学习Supervised Learning: 例子图书分类器 假设你有一堆已经标记好的书籍每本书都标明了它属于哪个类别小说、科幻、历史等。有监督学习就像是让机器学会根据这些标记来预测未标记书籍的类别使其能够正确地分类新书。 无监督学习Unsupervised Learning: 例子果篮分拣机 想象你有一个摄像头监视着传送带上的水果。无监督学习就是让机器自己学会识别并分拣水果而不需要提前告诉机器每种水果是什么。机器会自动找到数据中的模式将相似的水果分组。 半监督学习Semi-Supervised Learning: 例子邮件过滤器 假设你有大量已经标记好的垃圾邮件和一些正常邮件但未标记的邮件较多。半监督学习是让机器根据已知标记的数据进行学习然后尽可能准确地过滤未标记的邮件以提高整体过滤效果。 自监督学习Self-Supervised Learning: 例子拼图游戏 想象一个拼图游戏其中一些拼图块已经缺失。自监督学习是让机器学会通过已知的拼图块来预测缺失的拼图块而不需要额外的标签信息。通过这个过程机器可以自我生成标签信息。 远程监督学习Distant Supervision: 例子语音识别 在语音识别中远程监督学习可能涉及到使用一组正确标记的音频数据但并非所有都需要人工标注。通过部分标记的数据机器可以学会识别新的音频数据。 强化学习Reinforcement Learning: 例子智能驾驶汽车 将智能驾驶汽车看作一个强化学习代理。汽车通过感知环境摄像头、雷达等执行动作转向、加速、刹车并根据执行的动作获得奖励或惩罚遵守交规奖励违反交规惩罚。通过不断尝试汽车学会在不同情境下做出最优的驾驶决策。
复杂
当我们谈论机器学习时有监督学习、无监督学习、半监督学习、自监督学习、远程监督和强化学习是常见的学习方式。为了更好地理解这些概念我们可以用日常用品的例子来解释 有监督学习Supervised Learning 例子 想象你是一名水果识别专家你有一个标有水果名称的图像数据集。每张图片都有相应的标签比如苹果、橙子或香蕉。核心原理 算法通过学习已标记的数据带有标签来建立模型然后用这个模型对新的未标记数据进行分类。 无监督学习Unsupervised Learning 例子 现在你只有一堆水果图片但是没有标签。你的任务是发现这些数据中的模式例如将相似的水果归为一组而无需事先知道水果的名称。核心原理 算法通过发现数据中的模式和结构而不依赖于事先的标签来进行学习。 半监督学习Semi-Supervised Learning 例子 你有一些带有标签的水果图片但是大多数数据是没有标签的。半监督学习的任务是在有限的标签数据下尽可能提高对未标签数据的准确分类。核心原理 结合有标签和无标签的数据进行学习以更好地泛化到新数据。 自监督学习Self-Supervised Learning 例子 假设你有一组水果图片但是标签被随机删除了。自监督学习的目标是模型能够自行预测图像中水果的位置而不是依赖外部标签。核心原理 模型通过利用数据本身的结构和信息来进行学习无需外部标签。 远程监督Distant Supervision 例子 假设你想创建一个自动评估水果熟度的系统。虽然无法直接获取水果熟度的标签但你可以使用远程传感器监测水果的颜色声音等信息作为替代标签。核心原理 利用间接的、可能不太精确但可获得的监督信号来进行学习。 强化学习Reinforcement Learning 例子 想象你是一名机器人控制工程师你的机器人学会通过尝试和错误来掌握在房间中导航的技能。每次成功导航或失败都会有相应的奖励或惩罚。核心原理 通过与环境的交互系统学习在特定环境中采取哪些动作以最大化累积奖励。