网站流量 转化率,网站开发一般有几个服务器,wordpress提交评论卡死,网站推广的基本方法是哪四个似然函数是连接数据与参数的桥梁#xff0c;通过“数据反推参数”的逆向思维#xff0c;成为统计推断的核心工具。理解它的关键在于区分“参数固定时数据的概率”与“数据固定时参数的合理性”#xff0c;这种视角转换是掌握现代统计学和机器学习的基础。
一、在学习似然函…似然函数是连接数据与参数的桥梁通过“数据反推参数”的逆向思维成为统计推断的核心工具。理解它的关键在于区分“参数固定时数据的概率”与“数据固定时参数的合理性”这种视角转换是掌握现代统计学和机器学习的基础。
一、在学习似然函数之前我们需要弄懂什么是条件概率
概率是指在事件 B 已经发生的前提下事件 A 发生的概率记作 P(A|B)读作“在 B 发生的条件下 A 发生的概率”。其定义为 其中P(A ∩ B)表示事件 A 和事件 B 同时发生的概率P(B) 表示事件 B 发生的概率。需要注意的是P(B)必须大于零否则条件概率无法定义。
示例
一个标准的52张扑克牌堆问从中随机抽取一张牌这张牌是红心的概率是多少这是一个无条件概率问题答案(红心) 13/52 1/4。
现在假设已知抽到的牌是一张或方片在此条件下这张牌是红心的条件概率是多少这是一个条件概率问题。
设事件 A 为“抽到红心”事件 B 为“抽到红色牌”则
P(A ∩ B) P(红心) 13/52P(B) P(红心或方片) 26/52 1/2
因此条件概率 P(A|B) 为 需要注意的是条件概率 P(A|B) 与 P(B|A) 一般不相等。例如在上述例子中P(红心|红色牌) 1/2而 P(红色牌|红心) 1因为在抽到红心的情况下必然是一张红色牌。
条件概率在统计学、概率论以及机器学习等领域有广泛的应用特别是在贝叶斯定理中条件概率是核心概念之一。
二、还需要弄懂什么是高斯分布
一高斯分布
高斯分布也称为正态分布是统计学中最常见的连续概率分布之一。其概率密度函数呈对称的钟形曲线描述了数据在均值附近的集中程度。高斯分然科学和社会科学中广泛应用常用于表示未知的随机变量。
概率密度函数
对于均值为 μ、标准差为 σ 的高斯分布其概率密度函数为 其中μ 决定了分布的位置σ 决定了分布的幅度。
标准正态分布 μ 0、σ 1 时标准正态分布其概率密度函数为 性质 **对称性*斯分布关于均值 μ 对称。 68-95-99.7 规则 在高斯分布中约68%的数据位于均值±1σ范围内约95%位于均值±2σ范围内约99.7%位于均值±3σ范围内。
在三维视图中二维高斯分布的概率密度函数图像类似于一个倒置的碗中心最高向四周逐渐降低。其数学表达式为 应用
高斯分布在统计学中具有重要地位常用于描述自然和社会科学中的随机变量。例如在测量误差分析中假设误差服从高斯分布可以简化分析过程。
此外根据中心极限定理当对大量独立同分布的随机变量求和时其和的分布趋近于高斯分布这使得高斯分布在统计推断中尤为重要。
需要注意的是虽然高斯分布在理论和应用中广泛存在但并非所有数据都服从高斯分布。在进行数据分析时应首先检验数据的分布特性以选择适当的统计模型。
为了直观理解我们来看一下高斯分布对应的图像
高斯分布也称为正态分布的图像呈现为对称的钟形曲线其形状由均值μ和标准差σ决定。均值 μ 确定曲线的中心位置标准差 σ 控制曲线的宽度和高度。标准差越小曲线越陡峭标准差越大曲线越平坦。 二形象理解高斯分布
1. 直观比喻
想象你在测量一群人的身高 高斯分布大部分人的身高集中在某个平均值附近如170cm极端高或矮的人较少。 观测数据 y每次测量的身高值如169cm、171cm、168cm等。 假设 y 服从高斯分布意味着这些测量值围绕某个“中心值”波动且波动规律符合高斯分布的形状钟形曲线。
2. 具体场景
以线性回归为例 三、然后来掌握什么是似然函数
1.认识连乘运算符“∏”的用法 2.了解独立同分布的意义
在概率论与统计学中独立同分布Independent and Identically Distributed简称 i.i.d.指一组随机变量彼此独立且服从相同的概率分布。这意味着每个随机变量的取值不会影响其他变量的取值并且它们具有相同的分布特性。
独立随机变量之间互不影响即一个变量的取值不依赖于其他变量的取值。
同分布所有随机变量遵循相同的概率分布具有相同的分布函数、期望值和方差等统计特性。
示例 抛硬币实验假设我们进行多次抛硬币实验每次记录硬币正面朝上的结果。每次抛掷都是独立的一次抛掷的结果不影响另一次且每次抛掷的结果服从相同的分布正面和反面的概率相同。因此这些抛掷结果构成一组独立同分布的随机变量。 掷骰子实验假设我们多次掷骰子每次记录掷出的点数。每次掷骰子都是独立的且每次的结果服从相同的分布每个点数出现的概率相同。因此这些掷骰子的结果也是独立同分布的随机变量。
独立同分布是许多统计推断和机器学习方法的基础假设。例如在训练机器学习模型时通常假设训练数据是从同一分布中独立采样的以确保模型对新数据的有效性。
需要注意的是独立同分布并不意味着每个事件发生的概率都相同而是指随机变量之间相互独立并且遵循相同的概率分布。
3.认识似然函数
1似然函数的概念
给定一组独立同分布的数据样本 x1,x2,...,xn假设它们服从高斯分布则似然函数表示在给定参数μ, σ²下观测到这组数据的概率。 由于对数函数是单调递增的通常对似然函数取对数得到对数似然函数 通过最大化对数似然函数可以估计参数μ和σ²的值。
因此似然函数和高斯分布的关系在于假设数据服从高斯分布时似然函数基于高斯分布的概率密度函数构建用于估计分布的参数。
定义
似然函数是统计学中用来 “衡量模型参数在已知数据下的合理性” 的工具。简单来说它通过观测到的数据告诉我们 “不同参数值对产生这些数据的可能性有多大”。
核心思想逆向思维 概率已知参数 → 预测数据可能性 例已知硬币是公平的参数θ0.5抛10次出现6次正面的概率是多少 似然已知数据 → 推测参数可能性 例抛10次硬币观察到6次正面此时参数θ0.5的“似然值”有多大θ0.6呢
类比 概率天气预报说“明天下雨的概率70%” → 预测未来。 似然今天下雨了 → 推测“气象台模型参数设置是否合理”。
数学形式 2如何理解“似然” 3最大似然估计MLE 4关键区别似然 vs 概率 5常见误区和实际应用场景 误区1认为“似然值高”等于“参数正确”。 → 实际只能说明“参数对当前数据更合理”。 误区2混淆似然函数与后验概率。 → 后验概率 似然 × 先验概率需贝叶斯框架。 误区3忽略数据的独立性假设。 → 若数据不独立联合似然的乘积形式不成立。 参数估计如线性回归、逻辑回归中的MLE。 模型选择通过比较不同模型的似然值如AIC准则。 假设检验构建似然比检验Likelihood Ratio Test。
这篇文章我整理了学习最大似然估计之前的基础知识在掌握了这些知识之后我们下一步进行学习线性回归中求最优参数的最大似然估计的方法。