概率论（3）

参数估计和置信区间计算。

引入

很多老师都用这样的一个例子引入，假设我想知道全国身高的均值。这个值 $\mu$ 必然是客观存在的，但是给全国十四亿人全部测一遍显然这个工作量太大，对于学过数理统计的人来说，解决这个的最好的办法自然就是抽样。

理论

极限中心定理告诉我们，当样本量足够大时，所有的分布最终都趋于正态分布，下图就是标准正态分布的概率密度图。

概率密度函数反映了概率在该点的变化率，变化率越大显然证明该点的概率越大（即样本值等于该值的概率越大）。

因此正态分布的特点就是：均值的概率最大，越远离平均值的数值被抽到的概率越小。

而我们是想通过抽象来获得总体的平均值，而样本平均值显然是不能等于平均值的，但是可以一定程度地反应，那么如何描述这个“一定程度”，就是使用显著性水平来描述。

例如，从图中我们可以看出，-2~2 区间内的值包含了 95% 的概率，也就是说绝对值 > 2 的可能性仅仅只有 5%，这个 5% 就是显著性水平 $\alpha$，对应的置信水平就是 $1-\alpha$，而如果能找到一个区间，使得该区间的概率刚好等于置信水平的最小区间称为置信区间。

举个例子就是：假如投100个骰子，请你找出一个最小区间，使得这100个投掷出的点的和有95%的概率落入区该间内，那么我们所找到的这个最小区间就是显著性水平为 5% 的置信区间。

当然人的身高均值不可能是等于 0 的，它会服从 $N(\mu,\sigma^2)$ 的正态分布。假设 $\mu$ 未知，$\sigma$ 已知，我们是能画出它的概率密度图的， $\mu$ 的影响仅仅只是在 X 轴上平移罢了。

我们抽样之后，可以算出来一个样本的均值 $\overline X$，显然，这个均值应当服从 $N(\mu,\frac{\sigma^2}{n})$，$n$ 为抽样数量。

对这个随机变量进行正态标准化之后（这里我们会假定总体均值 $\mu=\hat{\mu}$），得到 $\frac{\overline X-\hat\mu}{\frac{\sigma}{\sqrt{n}}}$，它的值应当也有 95% 的概率落入 -2~2，如果恰好没有落入 -2~2，当然小概率事件是有可能发生的，但是一旦一次抽样发生了小概率事件，我们认为这件事就不对，也就是 $\overline X$ 不服从均值为 $\hat\mu$ 的分布，即我们没有 95% 的把握认为 $\mu=\hat\mu$。

分位点

其实很简单，概率论里面的分位点有两个，一个是（普通）分位点，一个是上分位点。

对于一个概率密度图来说：

如果存在一个值 $X$ 使得 $P{X\ge\alpha}$，那么该值就叫该概率密度函数的上 $\alpha$ 分位点，记为 $f_\alpha$。

如果存在一个值 $X$ 使得 $P{X\le\alpha}$，那么该值就叫该概率密度函数的 $\alpha$ 分位点，记为 $f_{1-\alpha}$。

计算置信区间

显然，在我们把均值变量标准化之后，我们需要找到对应的置信区间，来看看它在不在置信区间内。即：$\frac{\overline X-\hat\mu}{\frac{\sigma}{\sqrt{n}}}\in [\phi_{1-\frac{\alpha}{2}},\phi_{\frac{\alpha}{2}}]$，通过分位点，我们很容易找到置信区间，而即使我们不把它标准化，我们也可以利用化简不等式的方式轻易找到均值的置信区间，简单讲就是我们可以找到一个身高的范围，让它的抽样结果大概率是在里面的。

假设我们抽样100次，总体标准差为 5cm，假如我要认为全国人民的平均身高是 160cm，那么应当有$\frac{\overline X-160}{\frac{5}{\sqrt{100}}}\in [-2,2]$，即可化简出 $\overline X\in [159,161]$，如果抽样结果在里面，我们有 95%的概率相信全国人民的平均身高就是 160cm，如果不是，那么我们认为全国人民的平均身高就不是 160cm，如果没有明确告诉我们显著性水平，只给了我们一个 $\alpha$ 代替，我们可以使用分位点来代替这里的数值，即 $\overline X \in [160+\frac{1}{2}\phi_{1-\frac{\alpha}{2}},160+\phi_{\frac{\alpha}{2}}]$，如果 n 和和我们所预估的均值也是符号呢，那就一样的往回带就好了 $\overline X \in [\hat\mu+\frac{\sigma}{\sqrt{n}}\phi_{1-\frac{\alpha}{2}},\hat\mu+\frac{\sigma}{\sqrt{n}}\phi_{\frac{\alpha}{2}}]$，所以我们很容易得到已知方差情况下的置信区间。

这里需要注意的一点是，我们是在已知方差的情况下计算的，但是实际情况是，我连均值都不知道何来的方差？这个时候就需要用样本方差来代替总体方差，而这里也不再服从正态分布，而是服从学生分布（也叫t分布）。根据 t 分布的定义，我们很容易得出，它和正态分布的图像是差不多的，我们也仅仅只需要把上面式子中的 $\sigma$ 用样本标准差 S 代替就得到了学生分布，而这里样本容量决定了 t 分布的自由度。

这里简单推一即可：

根据定义我们知道 $\frac{\overline X-\hat\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)$，同样利用分位点的定义，我们可以计算得出，样本容量为 n ，样本标准差为 S，估计均值为 $\hat\mu$ 的置信区间就是 $\overline X \in [\hat\mu+\frac{S}{\sqrt{n}}t_{1-\frac{\alpha}{2}}(n-1),\hat\mu+\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)]$。

样本方差置信区间计算

同样根据定义我们有 $\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)$，根据分位点，我们可以得到 $\frac{(n-1)S^2}{\sigma^2} \in [\chi^2_{1-\frac{\alpha}{2}}(n-1),\chi^2_{\frac{\alpha}{2}}(n-1)]$，后面应该挺简单的，就是不等式化简，得到 $\sigma^2\in[\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}]$。

两个正态分布方差比值的置信区间计算

这里我们假设两个正态分布的方差分别为 $\sigma_1^2,\sigma_2^2$，我们从第一个正态分布抽取了 $n_1$ 个样本，标准差为 $S_1$，第二个正态分布抽取了 $n_2$ 个样本，标准差为 $S_2$。从上面过来，我们知道两个卡方分布比它们各自的自由度的比值应该是服从 F 分布的，F分布的自由度分别为两个卡方分布的自由度。

$\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}}{\frac{(n_2-1)S_2^2}{\sigma_2^2}}\sim \frac{\chi^2(n_1-1)}{\chi^2(n_2-1)}$，像上面说的，每个卡方分布除它们的自由度，得到了F分布，因此 $\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}}\sim F(n_1-1,n_2-1)$，再整理一下就是 $\frac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2}\sim F(n_1-1,n_2-1)$，再根据分位点计算出这个随机变量的置信区间：$\frac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2}\in[F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1),F_{\frac{\alpha}{2}}(n_1-1,n_2-1)]$

这里化简比较简单了，没有加加减减，直接乘过去那个标准差的比值就行了，$\frac{\sigma_2^2}{\sigma_1^2}\in[\frac{S_1^2}{S_2^2}F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1),\frac{S_1^2}{S_2^2}F_{\frac{\alpha}{2}}(n_1-1,n_2-1)]$，这里需要最后一个 F 分布的公式，那就是交换 F 分布的自由度之后，原分位点会变成上分位点的倒数。即：$F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1)=\frac{1}{F_{\frac{\alpha}{2}}(n_2-1,n_1-1)}$，这个结论记住就行了，也不难，因此上面的置信区间也不唯一，可以根据给定的条件灵活变换。

以上所有置信区间的公式我觉得并不需要会背，但是要会推，根据一个变量服从什么样的分布，通过分位点计算区间，然后再倒回去推出你所需要的随机变量的置信区间。