费雪信息和费雪信息矩阵

最编程 2024-04-29 07:18:10

...

一般情况下（under specific regularity conditions）可以很容易地证明， $E[S(\bold{X};\theta)]= 0$ , 从而得到：
$I(\theta) = E[S(X;\theta)^2]-E[S(X;\theta)]^2 = Var[S(X;\theta)]$

于是得到了Fisher Information的第一条数学意义：就是用来估计MLE的方程的方差。它的直观表述就是，随着收集的数据越来越多，这个方差由于是一个Independent sum的形式，也就变的越来越大，也就象征着得到的信息越来越多。

而且，如果log likelihood二阶可导，在一般情况下（under specific regularity conditions）可以很容易地证明:
$E[S(\bold{X};\theta)^2] = -E(\frac{\partial^2}{\partial \theta^2}log L(\bold{X};\theta))$
于是得到了Fisher Information的第二条数学意义：log likelihood在参数真实值处的负二阶导数的期望。这个意义好像很抽象，但其实超级好懂。
首先看一下一个normalized Bernoulli log likelihood长啥样：

&amp;lt;img src="https://pic1.zhimg.com/50/28c4c679b6758707ed779c066d0e8e3a_hd.jpg" data-rawwidth="900" data-rawheight="806" class="origin_image zh-lightbox-thumb" width="900" data-original="https://pic1.zhimg.com/28c4c679b6758707ed779c066d0e8e3a_r.jpg"&amp;gt; 对于这样的一个log likelihood function，它越平而宽，就代表我们对于参数估计的能力越差，它高而窄，就代表我们对于参数估计的能力越好，也就是信息量越大。而这个log likelihood在参数真实值处的负二阶导数，就反应了这个log likelihood在顶点处的弯曲程度，弯曲程度越大，整个log likelihood的形状就越偏向于高而窄，也就代表掌握的信息越多。

然后，在一般情况下（under specific regularity conditions），通过对score function在真实值处泰勒展开，然后应用中心极限定理，弱大数定律，依概率一致收敛，以及Slutsky定理，可以证明MLE的渐进分布的方差是 $I^{-1}(\theta)$ ，即 $Var(\hat{\theta}_{MLE}) = I^{-1}(\theta)$ , 这也就是 Fisher Information的第三条数学意义。不过这样说不严谨，严格的说，应该是 $\sqrt{n}(\hat{\theta}_{MLE}-\theta) \xrightarrow{D} N(0,I^*(\theta)^{-1})$ , 这里 $I^*(\theta)$ 是当只观察到一个X值时的Fisher Information，当有n个 i.i.d 观测值时， $I^*(\theta) = I(\theta)/n$ 。所以这时的直观解释就是，Fisher Information反映了我们对参数估计的准确度，它越大，对参数估计的准确度越高，即代表了越多的信息。

上一篇： plink 各种格式转换和简单命令

下一篇：联网 TCP/IP 基础（IP 地址和子网划分） - 子网划分的原因

费雪信息和费雪信息矩阵

一般高斯情况下 CRLB 解法的费雪信息阵列公式推导

费雪信息和费雪信息矩阵

费雪信息和费雪信息矩阵

R 语言独立性测试：卡方检验（卡方检验）和费雪精确检验分析案例报告

费雪分离定理的证明和评估