河源市建设网站,东莞长安网站设计,网站表单模板,深圳建筑图片大全高清文章目录一、前言二、下载二、使用介绍2.1 绘制缺失值条形图2.2 绘制缺失值热力图2.3 缺失值树状图三、参考资料一、前言
在我们进行机器学习或者深度学习的时候#xff0c;我们经常会遇到需要处理数据集缺失值的情况#xff0c;那么如何可视化数据集的缺失情况呢#xff1…
文章目录一、前言二、下载二、使用介绍2.1 绘制缺失值条形图2.2 绘制缺失值热力图2.3 缺失值树状图三、参考资料一、前言
在我们进行机器学习或者深度学习的时候我们经常会遇到需要处理数据集缺失值的情况那么如何可视化数据集的缺失情况呢这里介绍一种方法
使用missingno包
missingno提供了一个灵活且易于使用的缺少数据可视化工具和实用程序的小型工具集使你可以快速直观地概述数据集的完整性。
二、下载
pip install missingno二、使用介绍
missingno一般配合numpy和pandas一起使用如下是一个案例 空白越多说明缺失越严重。
比如我们的一个数据集是data_2
2.1 绘制缺失值条形图
plt.rcParams[font.sans-serif] [STSong]
import missingno as msn
msn.matrix(data_2, labels False, label_rotation 90)msn.bar(data_2)2.2 绘制缺失值热力图
missingno相关性热力图可以显示无效的相关性一个变量的存在或不存在如何强烈影响的另一个的存在。
数值为1两个变量一个缺失另一个必缺失
数值为-1一个变量缺失另一个变量必然不缺失。
数值为0变量缺失值出现或不出现彼此没有影响。
热力图非常适合于选择变量对之间的数据完整性关系但是当涉及到较大的关系时其解释力有限并且它不特别支持超大型数据集。
注始终为满或始终为空的变量没有任何有意义的关联因此会从可视化中删除。
msno.heatmap(collisions)2.3 缺失值树状图
通过树状图可以更全面地观察缺失变量的关联性揭示比关联热力图更深刻的相关关系
msno.dendrogram(collisions)树状图使用层次聚类算法通过变量的无效相关性以二进制距离来衡量将变量彼此分类。
在树的每个步骤中根据哪个组合最小化其余群集的距离来对变量进行拆分。变量集越单调它们的总距离越接近零而它们的平均距离y轴越接近零。以零距离链接在一起的簇叶完全可以预测彼此的存在-一个变量在填充另一个变量时可能始终为空或者它们可能始终都被填充或都为空依此类推。
簇叶几乎分裂为零但不分裂为零彼此预测得很好但仍不完美。
如果你自己的数据集的解释是这些列实际上是或者应该是在无效相互匹配例如作为CONTRIBUTING FACTOR VEHICLE 2和VEHICLE TYPE CODE 2应该那么集群叶的高度告诉你在绝对数量记录多久是“不匹配”或提交错误的文件也就是说如果您愿意则必须填写或删除多少个值。
三、参考资料
https://blog.csdn.net/qq_42722197/article/details/124464365