当前位置: 首页 > news >正文

做网站团队青岛网站排名提升

做网站团队,青岛网站排名提升,网站app客户端制作,网站建设市场需求分析🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前…

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光

 

目录

1. 前言

2. 数据变换 

2.1 数据规范化

​编辑 2.2 数据离散化

2.2.1 非监督离散化

2.2.2 监督离散化


1. 前言

在进入这一篇文章之前,我希望大家看看另外两篇文章

【数据处理】数据预处理·数据清理-CSDN博客

【数据处理】数据预处理·数据集成-CSDN博客

核心思想:

        1、大数据中最重要的部分就是数据处理

        2、数据处理中第一步就是数据预处理

        3、数据预处理目的是提高数据的质量,使得我们能使用更高质量的数据进行后续处理

        4、数据预处理包括:数据清洗、数据集成、数据变换、数据规约

数据清洗:

        1、缺失值处理

        2、噪声处理

数据集成:

        1、数据集成中最大的问题就是数据冗余

        2、冗余数据包括:冗余样本、冗余属性

        3、数据冗余中最重要的部分是:冗余检测

        4、冗余检测包括:有序数据检测、无序数据检测

        5、检测方式有两个角度:a. 将数据看成向量空间的点;b. 将数据看成向量


接下来,我们进入数据预处理的下一部分:数据变换

2. 数据变换 

定义:由于数据量之间的量纲、连续性等不同导致不同数据之间不能比较,因此需要通过数据变换使他们具有可比性。

数据变换包括 :数据规范化、数据离散化

2.1 数据规范化

目的:将不同数据(属性)按一定规则进行缩放,使它们具有可比性

举个例子:体重和身高两个数据量之间不能比较,因为量纲不同,因此需要规范化 

最小-最大规范化:(对原始数据进行线性变换。把数据A的观察值v从原始的 区间[minA,maxA]映 射到新区间 [new_minA,new_maxA])【0-1规范化又称为归一化】

0-1规范化:

\mathrm{x'=\frac{x-min}{max-min}}

[minA,maxA] - [new_minA,new_maxA]规范化:

\frac{v^\prime-new_min_A}{new_max_A-new_min_A}=\frac{v-min_A}{max_A-min_A}

\nu^{\prime}=\frac{\nu-min_{A}}{\max_{A}-\min_{A}}(\mathrm{new_max_{A}-new_min_{A}})+\min_{A} 

用处:能够调节两个属性的量纲,让两者可以比较 

缺点:噪声影响非常大,对离群值很敏感

因此,提出z-score规范化!!!!

z-score规范化:

小数定标规范化: 

 2.2 数据离散化

连续数据过于细致,数据之间的关系难以分析,划分为离散化的区间,发现数据之间的关联,便于算法处理。

  • 思考什么是离散化?
  • 离散化本质就是限制类的数量
  • 限制类的数量其核心思想和平滑是相同的
  • 平滑也就是我们进行数据清洗(缺失、噪声处理)的核心思想

2.2.1 非监督离散化

  • 分箱
  • 聚类

 

2.2.2 监督离散化

  • 熵的计算

熵的本质思想:信息不确定性越大,价值越大

例如:

1、“太阳从东边升起来”这个信息没有不确定性,这是一个必然事实。那么这个信息对于我们来说是没有价值的。

2、“特朗普将赢得大选”这个信息不确定性相当大(特朗普不一定赢)。因此,我们听到这个信息会很好奇,为什么特朗普将赢,因此这个信息价值很大。


那么如何利用熵来对数据进行离散化呢?

离散化:就是把数据的类别减少(限制类别数量)。

因此,利用熵来实现离散化的关键在于:为连续的数据进行有限的分类。

问题的关键就转化为:如何利用熵有效的对数据进行分类

分类方法:

  • D:待分类数据集
  • a:数据集的特征属性
  • V:数据集特征属性a的不同分类集合(V是我们找max过程中需要改变的

举个例子:

如果想要学习更多深度学习知识,大家可以点个关注并订阅,持续学习、天天进步

你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~

http://www.hkea.cn/news/27650/

相关文章:

  • 数据库修改网站管理员密码seo网站有优化培训吗
  • 福田做商城网站建设找哪家公司好抖音怎么运营和引流
  • 厘米售卡站怎么做网站禁止搜索引擎收录的方法
  • 网站首页滚动图片怎么做谷歌搜索关键词排名
  • 嵩县网站开发友情链接获取的途径有哪些
  • 国家企业信息公示网(广东)海南快速seo排名优化
  • 高端网站设计 上海徐州seo排名公司
  • 泰安网站建设公司排名石家庄最新消息
  • 域名只做邮箱没网站要备案吗常见的网络推广方式包括
  • 昆山建设局网站360搜索首页
  • 正常做网站多少钱无锡网站制作无锡做网站
  • php做网站csdn网站seo公司哪家好
  • 今日头条建站工具何鹏seo
  • wordpress 培训模板优化落实疫情防控新十条
  • 关于做外汇现货的网站太原整站优化排名外包
  • 星悦做任务网站是新网站百度收录
  • 十大营销网站seo关键词查询工具
  • 怎么查询网站所有关键词靠谱的广告联盟
  • 超酷的网站设计磁力搜索引擎
  • 网站建设写程序用什么软件成都疫情最新消息
  • 做网站需要什么资金2022今天刚刚发生地震了
  • 建设网站费用主要包括哪些google商店
  • 专注邯郸建设手机网站贴吧友情链接在哪
  • 网站备案拍照背景志鸿优化网官网
  • 网站百度知道怎么做推广网站搜索引擎优化的方法
  • 网站建设注意哪些问题sem和seo是什么职业岗位
  • 一_建设网站前的市场分析奶茶软文案例300字
  • 做网站智能工具江阴企业网站制作
  • 怎么看网站有没有做推广大数据营销系统多少钱
  • 广东工厂搜索seoseo平台优化服务