凡科建站的怎么取消手机网站,网站开发配置表格,哪里有做图片的网站,上海做网站最好的公司Cramr-Rao界#xff1a;参数估计精度的“理论底线”
在统计学中#xff0c;当我们用数据估计一个模型的参数时#xff0c;总希望估计结果尽可能精确。但精度有没有一个理论上的“底线”呢#xff1f;答案是有的#xff0c;这就是Cramr-Rao界#xff08;Cramr-Rao Lower …Cramér-Rao界参数估计精度的“理论底线”
在统计学中当我们用数据估计一个模型的参数时总希望估计结果尽可能精确。但精度有没有一个理论上的“底线”呢答案是有的这就是Cramér-Rao界Cramér-Rao Lower Bound, CRLB。它通过Fisher信息矩阵的正定性给出了无偏估计协方差的最低下限。简单来说它告诉我们再怎么努力你的估计精度也超不过这个界限。今天我们就来聊聊Cramér-Rao界的由来、意义和应用。 什么是Cramér-Rao界
Cramér-Rao界是一个统计定理用来衡量无偏估计器unbiased estimator的精度。假设我们有一个参数 ( θ \theta θ )可以是向量用数据 ( x x x ) 估计它得到估计量 ( θ ^ \hat{\theta} θ^ )。如果 ( θ ^ \hat{\theta} θ^ ) 是无偏的即 ( E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ )它的协方差矩阵满足 Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)≥I(θ)−1
( Cov ( θ ^ ) \text{Cov}(\hat{\theta}) Cov(θ^) )估计量 ( θ ^ \hat{\theta} θ^ ) 的协方差矩阵反映估计的分散程度。( I ( θ ) I(\theta) I(θ) )Fisher信息矩阵衡量数据提供的参数信息。( ≥ \geq ≥ )表示矩阵意义上的不等式即 ( Cov ( θ ^ ) − I ( θ ) − 1 \text{Cov}(\hat{\theta}) - I(\theta)^{-1} Cov(θ^)−I(θ)−1 ) 是半正定的。
如果 ( θ \theta θ ) 是标量方差形式更简单 Var ( θ ^ ) ≥ 1 I ( θ ) \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} Var(θ^)≥I(θ)1
通俗比喻
想象你在射箭想尽可能靠近靶心真实参数 ( θ \theta θ )。Cramér-Rao界就像一个“靶环”告诉你箭的散布范围方差或协方差不可能小于这个环。Fisher信息矩阵 ( I ( θ ) I(\theta) I(θ) ) 则像弓箭的质量信息越多( I ( θ ) I(\theta) I(θ) ) 越大靶环越小精度越高。 Fisher信息矩阵与正定性
Fisher信息矩阵定义为 I ( θ ) i j E [ ∂ log p ( x ∣ θ ) ∂ θ i ∂ log p ( x ∣ θ ) ∂ θ j ∣ θ ] I(\theta)_{ij} E\left[ \frac{\partial \log p(x|\theta)}{\partial \theta_i} \frac{\partial \log p(x|\theta)}{\partial \theta_j} \bigg| \theta \right] I(θ)ijE[∂θi∂logp(x∣θ)∂θj∂logp(x∣θ) θ]
或等价地 I ( θ ) i j − E [ ∂ 2 log p ( x ∣ θ ) ∂ θ i ∂ θ j ∣ θ ] I(\theta)_{ij} -E\left[ \frac{\partial^2 \log p(x|\theta)}{\partial \theta_i \partial \theta_j} \bigg| \theta \right] I(θ)ij−E[∂θi∂θj∂2logp(x∣θ) θ]
如果模型是可识别的不同 ( θ \theta θ ) 对应不同分布( I ( θ ) I(\theta) I(θ) ) 通常是正定的即对任意非零向量 ( v v v ) v T I ( θ ) v 0 v^T I(\theta) v 0 vTI(θ)v0
正定性的作用
逆矩阵存在正定保证 ( I ( θ ) I(\theta) I(θ) ) 可逆( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 存在。正定逆矩阵( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 也是正定的意味着它是一个有效的协方差矩阵对角元素非负。精度量化( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 提供了估计精度的理论下界。 Cramér-Rao界的推导简要版
为什么协方差有这个下界我们用一个直观的推导来说明以标量为例多参数类似。
假设
( θ ^ \hat{\theta} θ^ ) 是 ( θ \theta θ ) 的无偏估计( E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ )。得分函数 ( s ( θ ) ∂ log p ( x ∣ θ ) ∂ θ s(\theta) \frac{\partial \log p(x|\theta)}{\partial \theta} s(θ)∂θ∂logp(x∣θ) )( E [ s ( θ ) ] 0 E[s(\theta)] 0 E[s(θ)]0 )。
关键步骤
由于 ( E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ )对 ( θ \theta θ ) 求导 ∂ ∂ θ E [ θ ^ ] ∫ θ ^ ( x ) ∂ p ( x ∣ θ ) ∂ θ d x 1 \frac{\partial}{\partial \theta} E[\hat{\theta}] \int \hat{\theta}(x) \frac{\partial p(x|\theta)}{\partial \theta} \, dx 1 ∂θ∂E[θ^]∫θ^(x)∂θ∂p(x∣θ)dx1 (分别左右两边求导左边求导是积分这一项右边 θ \theta θ对自己求导是1 具体请看后文推导)
因为 ( ∂ p ∂ θ p ⋅ ∂ log p ∂ θ p ⋅ s \frac{\partial p}{\partial \theta} p \cdot \frac{\partial \log p}{\partial \theta} p \cdot s ∂θ∂pp⋅∂θ∂logpp⋅s )所以 ∫ θ ^ ( x ) p ( x ∣ θ ) s ( x ∣ θ ) d x 1 \int \hat{\theta}(x) p(x|\theta) s(x|\theta) \, dx 1 ∫θ^(x)p(x∣θ)s(x∣θ)dx1
改写 E [ θ ^ s ] 1 E[\hat{\theta} s] 1 E[θ^s]1
考虑 ( θ ^ − θ \hat{\theta} - \theta θ^−θ )估计误差因为 ( E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ ) E [ ( θ ^ − θ ) s ] E [ θ ^ s ] − E [ θ s ] 1 − 0 1 E[(\hat{\theta} - \theta) s] E[\hat{\theta} s] - E[\theta s] 1 - 0 1 E[(θ^−θ)s]E[θ^s]−E[θs]1−01
这是因为 E [ θ s ] θ E [ s ] θ ⋅ 0 0 E[\theta s] \theta E[s] \theta \cdot 0 0 E[θs]θE[s]θ⋅00
其中 ( θ \theta θ ) 是常数真实参数可以提出来而 ( E [ s ] 0 E[s] 0 E[s]0 )所以 ( E [ θ s ] 0 E[\theta s] 0 E[θs]0 )。
应用柯西-施瓦茨不等式
对于随机变量 ( X θ ^ − θ X \hat{\theta} - \theta Xθ^−θ ) 和 ( Y s Y s Ys ) ( E [ X Y ] ) 2 ≤ E [ X 2 ] E [ Y 2 ] (E[XY])^2 \leq E[X^2] E[Y^2] (E[XY])2≤E[X2]E[Y2]
代入 1 2 ≤ E [ ( θ ^ − θ ) 2 ] E [ s 2 ] 1^2 \leq E[(\hat{\theta} - \theta)^2] E[s^2] 12≤E[(θ^−θ)2]E[s2]
( E [ ( θ ^ − θ ) 2 ] Var ( θ ^ ) E[(\hat{\theta} - \theta)^2] \text{Var}(\hat{\theta}) E[(θ^−θ)2]Var(θ^) )无偏估计的方差。( E [ s 2 ] I ( θ ) E[s^2] I(\theta) E[s2]I(θ) )Fisher信息。
于是 1 ≤ Var ( θ ^ ) ⋅ I ( θ ) 1 \leq \text{Var}(\hat{\theta}) \cdot I(\theta) 1≤Var(θ^)⋅I(θ) Var ( θ ^ ) ≥ 1 I ( θ ) \text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)} Var(θ^)≥I(θ)1
多参数情况下协方差矩阵的不等式通过类似方法矩阵形式的柯西-施瓦茨得出 Cov ( θ ^ ) ≥ I ( θ ) − 1 \text{Cov}(\hat{\theta}) \geq I(\theta)^{-1} Cov(θ^)≥I(θ)−1 Cramér-Rao界的意义
1. 精度下限
CRLB告诉我们无论用什么方法只要估计是无偏的其协方差或方差都不可能低于 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 )。这为估计器的性能设定了“理论底线”。
2. 有效估计Efficient Estimator
如果某个估计 ( θ ^ \hat{\theta} θ^ ) 的协方差恰好等于 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 )达到CRLB它被称为“有效估计”。例如最大似然估计MLE在大样本下常达到此界。
3. Fisher信息的角色
( I ( θ ) I(\theta) I(θ) ) 越大信息越多( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 越小估计精度越高。反之信息少时精度受限。
例子正态分布
对于 ( x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) x∼N(μ,σ2) )已知 ( σ 2 \sigma^2 σ2 )
( I ( μ ) 1 σ 2 I(\mu) \frac{1}{\sigma^2} I(μ)σ21 )( Var ( μ ^ ) ≥ σ 2 n \text{Var}(\hat{\mu}) \geq \frac{\sigma^2}{n} Var(μ^)≥nσ2 )( n n n ) 是样本量。样本均值 ( μ ^ 1 n ∑ x i \hat{\mu} \frac{1}{n} \sum x_i μ^n1∑xi ) 的方差正好是 ( σ 2 n \frac{\sigma^2}{n} nσ2 )达到CRLB是有效估计。 实际应用
1. 评估估计器性能
设计一个估计器后拿它的协方差与CRLB对比
如果接近说明很优秀。如果远超可能是偏倚或效率低。
2. 实验设计
CRLB帮助优化数据采集。例如增大样本量 ( n n n ) 或减少噪声 ( σ 2 \sigma^2 σ2 )使 ( I ( θ ) I(\theta) I(θ) ) 变大提升精度。
3. 机器学习
在深度学习中Fisher信息矩阵用于优化如自然梯度下降。CRLB启发我们通过信息最大化改进模型。 总结
Cramér-Rao界是参数估计的“金标准”通过Fisher信息矩阵的正定性设定了一个协方差下界。正定保证 ( I ( θ ) − 1 I(\theta)^{-1} I(θ)−1 ) 有效量化了估计精度的极限。它不仅告诉我们“能有多准”还指导我们如何设计更好的估计器。下次做估计时不妨算算CRLB看看你的方法离“完美”有多远 补充为什么 ( ∂ ∂ θ E [ θ ^ ] 1 \frac{\partial}{\partial \theta} E[\hat{\theta}] 1 ∂θ∂E[θ^]1 )
在Cramér-Rao界的推导中我们假设 ( θ ^ \hat{\theta} θ^ ) 是 ( θ \theta θ ) 的无偏估计即 E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ
这意味着对于任意真实的参数值 ( θ \theta θ )估计量 ( θ ^ \hat{\theta} θ^ ) 的期望始终等于 ( θ \theta θ )。现在我们对这个等式两边对 ( θ \theta θ ) 求导看看会发生什么。
推导步骤 左侧求导 ∂ ∂ θ E [ θ ^ ] ∂ ∂ θ θ \frac{\partial}{\partial \theta} E[\hat{\theta}] \frac{\partial}{\partial \theta} \theta ∂θ∂E[θ^]∂θ∂θ 因为 ( E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ ) 是一个恒等式( θ \theta θ ) 对 ( θ \theta θ ) 的导数显然是 ∂ θ ∂ θ 1 \frac{\partial \theta}{\partial \theta} 1 ∂θ∂θ1 所以左侧等于1。 右侧求导 ( E [ θ ^ ] E[\hat{\theta}] E[θ^] ) 是期望表示为积分形式 E [ θ ^ ] ∫ θ ^ ( x ) p ( x ∣ θ ) d x E[\hat{\theta}] \int \hat{\theta}(x) p(x|\theta) \, dx E[θ^]∫θ^(x)p(x∣θ)dx 现在对 ( θ \theta θ ) 求导 ∂ ∂ θ E [ θ ^ ] ∂ ∂ θ ∫ θ ^ ( x ) p ( x ∣ θ ) d x \frac{\partial}{\partial \theta} E[\hat{\theta}] \frac{\partial}{\partial \theta} \int \hat{\theta}(x) p(x|\theta) \, dx ∂θ∂E[θ^]∂θ∂∫θ^(x)p(x∣θ)dx 在正则条件下积分和导数可以交换顺序导数可以移到积分内部 ∫ θ ^ ( x ) ∂ p ( x ∣ θ ) ∂ θ d x \int \hat{\theta}(x) \frac{\partial p(x|\theta)}{\partial \theta} \, dx ∫θ^(x)∂θ∂p(x∣θ)dx 注意 ( θ ^ ( x ) \hat{\theta}(x) θ^(x)) 是 ( x x x ) 的函数不依赖 ( θ \theta θ )所以导数只作用于 ( p ( x ∣ θ ) p(x|\theta) p(x∣θ) )。 得分函数的引入 我们知道 ∂ p ( x ∣ θ ) ∂ θ p ( x ∣ θ ) ∂ log p ( x ∣ θ ) ∂ θ p ( x ∣ θ ) s ( x ∣ θ ) \frac{\partial p(x|\theta)}{\partial \theta} p(x|\theta) \frac{\partial \log p(x|\theta)}{\partial \theta} p(x|\theta) s(x|\theta) ∂θ∂p(x∣θ)p(x∣θ)∂θ∂logp(x∣θ)p(x∣θ)s(x∣θ) 其中 ( s ( x ∣ θ ) ∂ log p ( x ∣ θ ) ∂ θ s(x|\theta) \frac{\partial \log p(x|\theta)}{\partial \theta} s(x∣θ)∂θ∂logp(x∣θ) ) 是得分函数。所以 ∂ ∂ θ E [ θ ^ ] ∫ θ ^ ( x ) p ( x ∣ θ ) s ( x ∣ θ ) d x E [ θ ^ s ] \frac{\partial}{\partial \theta} E[\hat{\theta}] \int \hat{\theta}(x) p(x|\theta) s(x|\theta) \, dx E[\hat{\theta} s] ∂θ∂E[θ^]∫θ^(x)p(x∣θ)s(x∣θ)dxE[θ^s] 等于1的原因 从步骤1我们知道左侧是1因此 E [ θ ^ s ] 1 E[\hat{\theta} s] 1 E[θ^s]1 这表明无偏估计 ( θ ^ \hat{\theta} θ^ ) 和得分函数 ( s s s ) 的乘积期望恒等于1。这是一个关键性质反映了 ( θ ^ \hat{\theta} θ^ ) 的无偏性如何与似然函数的梯度关联起来。
为什么是1
直观上( E [ θ ^ ] θ E[\hat{\theta}] \theta E[θ^]θ ) 是一个关于 ( θ \theta θ ) 的恒等式它的“变化率”是1。而右侧积分 ( E [ θ ^ s ] E[\hat{\theta} s] E[θ^s] ) 是这种变化率的统计表达等于1是因为得分函数 ( s ) 捕捉了似然对 ( θ \theta θ ) 的敏感度而 ( θ ^ \hat{\theta} θ^ ) 的无偏性保证了这种敏感度的期望恰好平衡为1。 后记
2025年2月25日13点24分于上海在Grok3大模型辅助下完成。