国外域名注册网站,制作网站公司名称,甘肃省交通建设项目招投标中心网站,建设工程教育网论坛官网简介#xff1a;
极大似然方法#xff08;Maximum Likelihood Estimation, MLE#xff09;是一种用于估计统计模型参数的方法。其核心思想是基于观测数据来寻找最可能产生这些数据的模型参数。
早在1821年#xff0c;德国数学家高斯#xff08;C. F. Gauss#xff09;就…简介
极大似然方法Maximum Likelihood Estimation, MLE是一种用于估计统计模型参数的方法。其核心思想是基于观测数据来寻找最可能产生这些数据的模型参数。
早在1821年德国数学家高斯C. F. Gauss就利用极大似然方法MLE取估算误差概率分布正态分布的概率密度函数。高斯这老哥的思想领先了100年
但这一概念则由罗纳德·费希尔R. A. Fisher在1922年的论文《On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics》进行了系统阐述并且首先探讨了这种方法的一些性质。极大似然估计这一名称也是出自费希尔。
极大似然估计法MLE
描述函数和似然函数
极大似然方法很简单就是利用观测值去推测数学描述模型的参数。 没错利用极大似然估计法时我们需要提前知道观测数值的分布的描述函数一般为概率密度分布式或者自己去进行假设结构只有得到描述函数将它带入似然函数Likelihood Function后我们才能基于MLE的框架利用偏导求解。 因此在讲 MLE前我们要明确两个概念描述函数和似然函数。这两个概念在MLE中是不同层次的很多初学者会将两者弄混。
描述函数描述“发生概率”或者称为密度与对象变量x之间的映射关系这是一个理想化的概率写为, 常见的的描述函数如正态分布概率密度函数: 似然函数 描述描述函数参数变化时当前抽样结果对应发生概率的函数。写作 其中意味描述函数参数为组合下集合X抽样结果发生的概率其值为取值0~1是单次抽样中描述函数参数为组合下结果为的概率这些概率的交集即连乘)就是最终概率 注意 根据似然函数的结构特质抽样的各类事件或数值相互独立无不影响。 在构建似然函数时抽样结果是既定发生的也就是固定的否者无法进行MLE。 似然函数中描述函数的可变参数为自变量抽样结果发生的概率是应变量因此MLE的本质就是找到一组最佳可变参数使得既定发生的抽样结果对应发生的概率最大故称作为最大似然估计。
MLE基于似然函数对描述函数的参数进行反推
从数学思想的角度来说MLE就是基于现实得到的数据基于概率学对描述函数的参数进行反推。
假设神明以80为均值方差为40以正态分布随机地赋予人类寿命对于寿命的分布理想的描述函数为 对于身为人类的我而言关于寿命我什么都不知道只能借助抽样调查和最大似然估计反向推测神明的设计于是我做了一项3个单位调查我们有请MATLAB来帮忙模拟一下
% 设置均值和方差
mu 80;
sigma_squared 40;
sigma sqrt(sigma_squared); % 标准差是方差的平方根% 随机生成3个样本
num_samples 3;
samples normrnd(mu, sigma, [num_samples, 1]);% 显示生成的样本
disp(samples);%%83.400591.598565.7138人们不能总是直接猜到上帝的想法在这个问题中假如我是一个不知道正态分布概率密度函数的白痴要不这个问题就太简单了没办法体现MLE的用法 得到抽样数据后我认为神明关于寿命的安排应该是长这个样吧一个以e为底的对数函数,满足以xc点中心对称且其在定义域的积为1。当然以2、3、4其他自数为底也是可以的但是对数求导过程会复杂一些有兴趣的读者可以自己去尝试一下 其中定义域的积必须为1否则其参数的偏导0会无解 即 令 根据高斯积分定义 且 原式 故a、d、b应满足 既然如此我们就用d和b表示a吧于是 d被消掉了 令新b-b变化一下 看来不需要上帝我凭实力构建了一个类正态概率密度函数笑 继续
根据MLE似然函数 其中及
似然函数两边取对数方便求导 展开 在对似然函数中对参数b求偏导 在对似然函数中对参数c求偏导 其中对于c的偏导数为0最好解将抽样结果 83.400591.5985和65.7138带入很明显就是取抽样均值时c的偏导为0 将c80.2376带入再令b的偏导数为0有 解得
因此利用在3样本采样下利用MLE我们推测出概率密度函数最有可能的样子即最大似然估计的概率密度函数为 上帝给的真实概率密度函数为 这差距还挺大啊哈哈哈因为要手算所以我只抽样了三个样本啊接下来让MATLAB秘书帮我们自动化地计算采样100、1000、和10000下的基于MLE的概率密度函数。 %% 设置均值和方差
mu 80;
sigma_squared 40;
sigma sqrt(sigma_squared); % 标准差是方差的平方根% 随机生成100个样本
num_samples 100;
samples normrnd(mu, sigma, [num_samples, 1]);%%将计算的偏导数进行自动化计算%1。求解c的偏导
cmean(samples);
%2.求解b的偏导利用了自定义的函数
b solve_for_b_explicit(samples, c);disp([num2str((b/pi)^(1/2)),*e^(,num2str(-b),(x-,num2str(c),))])function b solve_for_b_explicit(x, c)% 输入% x - 输入数组% c - 已知常数%% 输出% b - 求解的值% 计算输入数组的元素个数n length(x);% 计算求和部分sum_xi_minus_c_squared sum((x - c).^2);% 计算b的显式解b n / (2 * sum_xi_minus_c_squared);
end
采样数量为10时0.044206*e^(-0.0061392(x-76.8192)^2)
采样数量为50时0.072282*e^(-0.016414(x-80.4277)^2)
采样数量为100时0.05551*e^(-0.0096803(x-80.1956)^2)
采样数量为500时0.064705*e^(-0.013153(x-80.2877)^2)
采样数量为1000时0.062513*e^(-0.012277(x-79.9881)^2)
采样数量为10000时0.06283*e^(-0.012402(x-80.0022)^2)
真实概率密度分布函数0.631*e^(-0.0125(x-80 )^2)
可以发现随着采样数量的增加最大似然估计的分布函数越来越准确
总结
通过详细的推导过程和问题的实践我们可以很好的掌握MLE的基本思想和基础理论。在本篇文章中我们在不知道正太分布概率密度分布函数的背景下仍利用MLE拟合出了具体的数值表达式可见MLE对数据分布的强大拟合能力。
MLE是信息论和机器学习的重要方法比如在隐马尔可夫模型HMM等序列数据建模中MLE通过Baum-Welch算法一种特殊的期望最大化EM算法来迭代地优化模型参数。