做1688网站运营工资怎么样,霸州网站开发,当下最热的网页制作工具,Wordpress会员插件出错目录 一、说明 二、均匀分布#xff1a; 三、机器学习和数据科学中的均匀分布示例#xff1a; 3.1 对数正态分布#xff1a; 3.2 机器学习和数据科学中的对数正态分布示例#xff1a; 四、 帕累托分布 4.1 什么是幂律#xff1f; 4.2 机器学习和数据科学中的帕累托分布示例… 目录 一、说明 二、均匀分布 三、机器学习和数据科学中的均匀分布示例 3.1 对数正态分布 3.2 机器学习和数据科学中的对数正态分布示例 四、 帕累托分布 4.1 什么是幂律 4.2 机器学习和数据科学中的帕累托分布示例 4.3 伯努利分布 4.4 机器学习和数据科学中的伯努利分布示例 4.5. 二项分布 4.6 机器学习和数据科学中的二项分布示例 五、概率分布变换 5.1. 统计假设 5.2. 提高算法性能 5.3. 稳定方差 5.4. 减少偏斜 5.5 实现常态的常见转换 一、说明 统计学是理解数据的有力工具其核心在于分布的概念。统计学中的分布有助于我们理解数据的分布方式为各种数据集的概率和行为提供重要的见解。从熟悉的钟形曲线的正态分布到其他偏斜和重尾模式本博客旨在解开不同类型的分布清楚地了解它们在统计分析中的特征、应用和意义。 二、均匀分布 均匀分布是一种概率分布其中所有结果在给定范围内的可能性相同。这意味着如果要从此范围中选择一个随机值则任何值都与任何其他值一样可能。例如从一篮子苹果中随机选择的苹果的重量在 100 到 200 克之间将遵循连续的均匀分布。 骰子结果的离散均匀分布
连续均匀分布的概率密度函数为 均匀分布的CDF由下式给出 均匀分布图中不存在偏度。
三、机器学习和数据科学中的均匀分布示例
随机初始化在许多机器学习算法中例如神经网络和 k 均值聚类参数的初始值可能会对最终结果产生重大影响。均匀分布通常用于随机初始化参数因为它可以确保范围内的所有值都具有相等的选择 概率。采样均匀分布也可用于采样。例如如果数据集中每个类的样本数相等则可以使用均匀分布随机选择代表所有类的数据子集。数据增强在某些情况下您可能希望通过生成与原始数据相似的新示例来人为地增加数据集的大小。均匀分布可用于生成原始数据指定范围内的新数据点。超参数优化均匀分布也可用于超参数优化在超参数优化中您需要为机器学习模型搜索超参数的最佳组合。通过为每个超参数定义均匀的先验分布可以从分布中采样以探索超参数空间。
3.1 对数正态分布 在概率论和统计学中对数正态分布是对数呈正态分布的随机变量的重尾连续概率分布即如果取每个值的自然对数并绘制此分布则得到正态分布。 对数正态的PDF方程由下式给出 这种分布是右偏的因为它倾向于在右侧产生更长的尾部这意味着大多数数据点集中在左侧少数较大的值延伸到右侧。 对数正态的概率分布 对数正态的累积分布
3.2 机器学习和数据科学中的对数正态分布示例
在 Internet 论坛中发布的评论长度遵循对数正态分布。用户在在线文章笑话、新闻等上的停留时间遵循对数正态分布。国际象棋比赛的长度往往遵循对数正态分布。 在经济学中有证据表明 97%-99% 的人口的收入是按对数正态分布的。
四、 帕累托分布 帕累托分布是一种概率分布通常用于模拟财富、收入和其他表现出类似幂律行为的量的分布。
4.1 什么是幂律 在数学中幂律是两个变量之间的函数关系其中一个变量与另一个变量的幂成正比。具体来说如果 y 和 x 是幂律相关的两个变量则关系可以写为y k * x^a 帕累托分布的概率分布 维尔弗雷多·帕累托Vilfredo Pareto最初使用这种分布来描述个人之间的财富分配因为它似乎很好地表明了任何社会财富的很大一部分由该社会中较小比例的人拥有的方式。他还用它来描述收入分配。这个想法有时更简单地表达为帕累托原则或“80-20规则”即20%的人口控制着80%的财富。
4.2 机器学习和数据科学中的帕累托分布示例
人类住区的规模少数城市/村庄。使用 TCP 协议的 Internet 流量的文件大小分布许多较小的文件少数较大的文件
4.3 伯努利分布 伯努利分布是一种对二元结果进行建模的概率分布其中结果可以是成功由值 1 表示或失败由值 0 表示。伯努利分布的特征是单个参数即成功概率用 p 表示。 4.4 机器学习和数据科学中的伯努利分布示例 伯努利分布通常用于机器学习中用于对二元结果进行建模例如客户是否会购买电子邮件是否为垃圾邮件或者患者是否患有某种疾病。
4.5. 二项分布 二项分布是一种概率分布它描述了在固定数量的独立伯努利试验中的成功次数该试验具有两种可能的结果通常称为“成功”和“失败”其中每个试验的成功概率是恒定的。二项分布由两个参数表征试验次数 n 和成功概率 p。 4.6 机器学习和数据科学中的二项分布示例
模型精度在测试预测电子邮件是否为垃圾邮件的机器学习模型时可能会运行它 100 次。每次您都会检查它是否正确成功或不正确失败。二项分布可帮助您了解在给定一定准确率的情况下模型可能正确预测的次数为 100 次。A/B 测试在 A/B 测试中您可以比较某些内容的两个版本例如网站或广告看看哪个版本效果更好。通过二项分布您可以根据一定的成功概率来估计一个版本更成功的频率例如获得更多点击或转化。
五、概率分布变换 在分布方面变换是指将数学函数应用于数据以改变其底层分布的过程。分布描述了数据如何分布在一系列值中转换用于实现各种目标包括修改分布的形状、比例或分布。 当您需要使用假定正态分布的算法时变换在统计学和机器学习中可能至关重要。许多统计方法和机器学习算法在数据遵循正态分布时表现最佳这要归功于对称性、定义的均值和标准差以及一致的分布等特性。 以下是应用转换使数据更正态分布的一些原因
5.1. 统计假设 统计检验如 t 检验、方差分析和许多回归模型假定基础数据或残差误差呈正态分布。当数据不符合此假设时结果可能会有偏见或具有误导性。转换有助于确保数据符合这些假设。
5.2. 提高算法性能 机器学习算法特别是线性回归和逻辑回归在数据或残差呈正态分布时可能表现更好。这是因为这些算法所依据的假设与正态性密切相关。通过转换使数据分布更均匀可以提高算法的预测准确性并减少偏差。
5.3. 稳定方差 当数据具有不稳定的方差异方差时可能会导致建模错误并降低期望一致方差的算法的有效性。转换有助于稳定方差使其在不同范围的数据中更加恒定。
5.4. 减少偏斜 有偏差的数据可能导致不准确的结论并使结果的解释复杂化。期望对称数据的算法在偏斜输入时可能表现不佳。对数转换等转换可以减少偏度使数据更接近正态分布。
5.5 实现常态的常见转换 以下是一些用于使数据更正态分布的常见转换
日志转换通过采用自然对数来转换数据从而减少正偏度。对于具有指数增长或长右尾的数据很有用。 我在泰坦尼克号数据集上详细应用了日志转换。你可以从这里学习代码和概念 平方根变换通过取平方根来转换数据以减少偏度通常用于计数数据或方差随均值增加的数据。Box-Cox 变换一种灵活的电源转换可以将一系列非正态数据转换为更正态分布。它需要非负数据并确定最佳功率变换参数 λ 以实现正态性。它可以在数学上表示为 学习代码你可以从这里学习代码和概念 相互转化涉及采用倒数 1/x 来转换数据从而减少正偏度。 希望这篇博客能加深你对统计学中不同概率分布的理解。如果您发现此内容的价值请考虑关注我以获取更有见地的帖子。谢谢感谢您花时间阅读本文。