当前位置: 首页 > news >正文

太原做网站制作天津市建设与管理网站

太原做网站制作,天津市建设与管理网站,哪里有响应式网站企业,网站设计要如何做支付功能简介 如果您还没有听过#xff0c;请告诉您一个事实#xff0c;作为一名数据科学家#xff0c;您应该始终站在一个角落跟你说#xff1a;“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽…简介 如果您还没有听过请告诉您一个事实作为一名数据科学家您应该始终站在一个角落跟你说“你的结果与你的数据一样好。” 尝试通过提高模型能力来弥补糟糕的数据是许多人会犯的错误。这相当于你因为原来的汽车使用了劣质汽油导致汽车表现不佳而更换了一辆超级跑车。这种情况下应该做的是提炼汽油而不是升级的车。在这篇文章中。我将向您解释如何通过提高数据集质量的方法来轻松获取更好的结果。 注意我将以图像分类的任务为例但这些技巧可以应用于各种数据集。 问题1数据量不够。 如果你的数据集过小你的模型将没有足够多的样本概括找到其中的特征在此基础上拟合的数据会导致虽然训练结果没太出错但是测试错误会很高。 解决方案1收集更多数据。 您可以尝试找到更多的相同源做为您的原始数据集或者从另一个相似度很高的源再或者如果你绝对要来概括。 注意事项这通常不是一件容易的事需要投入时间和金钱。此外你可能想要做一个分析以确定你需要有多少额外的数据。将结果与不同的数据集大小进行比较并尝试进行推断。 在这种情况下似乎我们需要500k样本才能达到目标 误差。这意味着我们现在收集的数据量是目前的50倍。处理数据的其他方面或  模型可能更有效。 解决方案2通过创建具有轻微变化的同一图像的多个副本来增强数据。 这种技术可以创造奇迹并以极低的成本生成大量额外的图像。您可以尝试裁剪旋转平移或缩放图像。您可以添加 噪点模糊改变颜色或阻挡部分噪音。在所有情况下您需要确保数据仍然代表同一个类。 所有这些图像仍然代表“猫”类别 这可能非常强大因为堆叠这些效果会为您的数据集提供指数级的样本。请注意这通常不如收集更多 原始 数据。 组合数据增强技术。班级仍然是“猫”应该被认可。 注意事项所有增强技术可能无法用于您的问题。例如如果要归类柠檬和酸橙不与色相玩因为这将是有意义颜色是对分类重要。 这种类型的数据增加将使模型更难找到区别特征。 问题2低质量的分类 这很简单但如果可能的话花些时间浏览一下您的数据集并验证每个样本的标签。这可能需要一段时间但在数据集中使用反例会对 学习过程产生不利影响。 此外为您的类选择正确的粒度级别。根据问题您可能需要更多或更少的类。例如您可以使用全局分类器对小猫的图像进行分类以确定它是动物然后通过动物分类器运行它以确定它是小猫。一个巨大的模型可以做到这两点但它会更难。 具有专门分类器的两阶段预测。 问题3低质量的数据 如引言中所述低质量数据只会导致低质量的结果。 数据集中的数据集中的样本可能与您要使用的数据集相差太远。这些可能会更混乱的模式不是很有帮助。 解决方案删除最糟糕的图像。 这是一个漫长的过程但会改善您的结果。 当然这三个图像代表猫但模型可能无法使用它。 另一个常见问题是当您的数据集由与真实世界应用程序不 匹配的数据组成时。例如如果图像来自完全不同的来源。 解决方案考虑技术的长期应用以及将用于获取生产数据的方法。 如果可能尝试使用相同的工具查找/构建数据集。 使用不代表您的真实世界应用程序的数据通常是一个坏主意。您的模型可能会提取在现实世界中无法使用的功能。 问题4不平衡的分类 如果数每类样本的不是大致的相同的所有类模型可能有利于统治阶级的倾向因为它会导致一个较低的 错误。我们说该模型存在偏差因为类分布是偏态的。这是一个严重的问题也是您需要查看精度召回或混淆矩阵的原因。 解决方案1收集代表性不足的分类的更多样本。 然而这在时间和金钱上通常 是昂贵的或者根本不可行。 解决方案2对数据进行过度/不足的采样。 这意味着您从过度表示的类中删除一些样本或从代表不足的类中复制样本。比重复更好使用数据增加如前所述。 补充猫类图片减少青柠的图片可以让数据集不同的分类更平衡 问题5数据不平衡 如果您的数据没有特定 格式或者值不在特定 范围内则您的模型可能无法处理它。你将有形象有更好的结果横宽比和像素值。 解决方案1裁剪或拉伸数据使其具有与其他样本相同的方面或格式。 两种可能性来改善格两种可能性来改善格式错误的图像式错误的图像。 解决方案2规范化数据使每个样本的数据都在相同的值范围内。 将值范围标准化为在整个数据集中保持一致。 问题6没有验证集和测试集 清理扩充和正确标记数据集后需要将其拆分。许多人通过以下方式将其拆分80用于训练20用于测试这 使您可以轻松发现过度装配。但是如果您在同一测试集上尝试多个模型则会发生其他情况。通过选择具有最佳测试精度的模型您实际上过度拟合了测试集。发生这种情况是因为您手动选择的模型不是其内在模型 值但其性能上的特定数据集。 解决方案将数据集拆分为三个训练集、验证集、测试集。 该屏蔽你的测试被设置过度拟合由模型的选择。选择过程变为 在训练集上训练你的模型。在验证集上测试它们以确保没有过拟合。选择最有希望的模型。在测试集上测试它这将为您提供模型的真实准确性。 注意一旦您选择了生产模型请不要忘记在整个 数据集上进行训练数据越多越好 结论 我希望到现在你确信在考虑你的模型之前你必须注意你的数据集。您现在知道处理数据的最大错误如何避免陷阱以及如何构建杀手数据集的提示和技巧如有疑问请记住“获胜者是不是一个最好的模式这是一个最好的数据。”。 原文Stop Feeding Garbage To Your Model! — The 6 biggest mistakes with datasets and how to avoid them.
http://www.hkea.cn/news/14276849/

相关文章:

  • 个性化定制网站门户网站的营销特点
  • 钦州建站哪家好线上电商平台
  • 校园网站设计与实现新的网站设计制作
  • 普通网站和门户网站的区别网站制作视频教程新手必看
  • 广东同江医院网站建设网站搭建兼职
  • 学校网站建设 论文呢源码编程器手机版下载
  • .net网站开发 平台怎样推广品牌
  • 五个网站网络舆情现状分析
  • 网站建设交流论坛地址网页布局设计器
  • 服装设计网南宁网络优化seo费用
  • 哪里有培训网站开发做网站怎么给客户打电话
  • 有什么网站是做企业型的360首页
  • 清新区城乡建设局网站广州网站优化实战
  • 网站模板免费吗公司网站建设合同模板下载
  • 网站编辑器做网站备案什么意思
  • 网上做兼职网站正规商丘网站建设推广渠道
  • 国外金融网站设计欣赏seo优化排名易下拉试验
  • 维护公司网站建设开发网站公司推荐
  • 百度推广就是做网站吧网站前台模板怎么替换
  • 网站开发参数wordpress评测
  • 网站怎么做外链接怎么建设一个自己的网站
  • 如何快速用手机做网站wordpress 删除修订版本
  • 网站设计书籍哈尔滨城乡建设厅网站
  • 网站管理建设总结网站建设归哪个部门
  • 北京建设局网站首页制作公司主页
  • 网站优化流程图众筹网站怎么做
  • 网站怎么做uc整合字牌标识公司网站网站编号 6019
  • 做黏土的网站网站制作知名公司
  • 网站如何建设与安全那有名网站是php做的
  • 天津武清网站开发阿里云域名注册官网