参数估计和置信区间计算。

引入

很多老师都用这样的一个例子引入,假设我想知道全国身高的均值。这个值 \(\mu\) 必然是客观存在的,但是给全国十四亿人全部测一遍显然这个工作量太大,对于学过数理统计的人来说,解决这个的最好的办法自然就是抽样。

理论

极限中心定理告诉我们,当样本量足够大时,所有的分布最终都趋于正态分布,下图就是标准正态分布的概率密度图。

概率密度函数反映了概率在该点的变化率,变化率越大显然证明该点的概率越大(即样本值等于该值的概率越大)。

因此正态分布的特点就是:均值的概率最大,越远离平均值的数值被抽到的概率越小。

而我们是想通过抽象来获得总体的平均值,而样本平均值显然是不能等于平均值的,但是可以一定程度地反应,那么如何描述这个“一定程度”,就是使用显著性水平来描述。

例如,从图中我们可以看出,-2~2 区间内的值包含了 95% 的概率,也就是说绝对值 > 2 的可能性仅仅只有 5%,这个 5% 就是显著性水平 \(\alpha\),对应的置信水平就是 \(1-\alpha\),而如果能找到一个区间,使得该区间的概率刚好等于置信水平的最小区间称为置信区间

举个例子就是:假如投100个骰子,请你找出一个最小区间,使得这100个投掷出的点的和有95%的概率落入区该间内,那么我们所找到的这个最小区间就是显著性水平为 5% 的置信区间。

当然人的身高均值不可能是等于 0 的,它会服从 \(N(\mu,\sigma^2)\) 的正态分布。假设 \(\mu\) 未知,\(\sigma\) 已知,我们是能画出它的概率密度图的, \(\mu\) 的影响仅仅只是在 X 轴上平移罢了。

我们抽样之后,可以算出来一个样本的均值 \(\overline X\),显然,这个均值应当服从 \(N(\mu,\frac{\sigma^2}{n})\)\(n\) 为抽样数量。

对这个随机变量进行正态标准化之后(这里我们会假定总体均值 \(\mu=\hat{\mu}\)),得到 \(\frac{\overline X-\hat\mu}{\frac{\sigma}{\sqrt{n}}}\),它的值应当也有 95% 的概率落入 -2~2,如果恰好没有落入 -2~2,当然小概率事件是有可能发生的,但是一旦一次抽样发生了小概率事件,我们认为这件事就不对,也就是 \(\overline X\) 不服从均值为 \(\hat\mu\) 的分布,即我们没有 95% 的把握认为 \(\mu=\hat\mu\)

分位点

其实很简单,概率论里面的分位点有两个,一个是(普通)分位点,一个是上分位点。

对于一个概率密度图来说:

如果存在一个值 \(X\) 使得 \(P\{X\ge\alpha\}\),那么该值就叫该概率密度函数的上 \(\alpha\) 分位点,记为 \(f_\alpha\)

如果存在一个值 \(X\) 使得 \(P\{X\le\alpha\}\),那么该值就叫该概率密度函数的 \(\alpha\) 分位点,记为 \(f_{1-\alpha}\)

计算置信区间

显然,在我们把均值变量标准化之后,我们需要找到对应的置信区间,来看看它在不在置信区间内。即:\(\frac{\overline X-\hat\mu}{\frac{\sigma}{\sqrt{n}}}\in [\phi_{1-\frac{\alpha}{2}},\phi_{\frac{\alpha}{2}}]\),通过分位点,我们很容易找到置信区间,而即使我们不把它标准化,我们也可以利用化简不等式的方式轻易找到均值的置信区间,简单讲就是我们可以找到一个身高的范围,让它的抽样结果大概率是在里面的。

假设我们抽样100次,总体标准差为 5cm,假如我要认为全国人民的平均身高是 160cm,那么应当有\(\frac{\overline X-160}{\frac{5}{\sqrt{100}}}\in [-2,2]\),即可化简出 \(\overline X\in [159,161]\),如果抽样结果在里面,我们有 95%的概率相信全国人民的平均身高就是 160cm,如果不是,那么我们认为全国人民的平均身高就不是 160cm,如果没有明确告诉我们显著性水平,只给了我们一个 \(\alpha\) 代替,我们可以使用分位点来代替这里的数值,即 \(\overline X \in [160+\frac{1}{2}\phi_{1-\frac{\alpha}{2}},160+\phi_{\frac{\alpha}{2}}]\),如果 n 和和我们所预估的均值也是符号呢,那就一样的往回带就好了 \(\overline X \in [\hat\mu+\frac{\sigma}{\sqrt{n}}\phi_{1-\frac{\alpha}{2}},\hat\mu+\frac{\sigma}{\sqrt{n}}\phi_{\frac{\alpha}{2}}]\),所以我们很容易得到已知方差情况下的置信区间。

这里需要注意的一点是,我们是在已知方差的情况下计算的,但是实际情况是,我连均值都不知道何来的方差?这个时候就需要用样本方差来代替总体方差,而这里也不再服从正态分布,而是服从学生分布(也叫t分布)。根据 t 分布的定义,我们很容易得出,它和正态分布的图像是差不多的,我们也仅仅只需要把上面式子中的 \(\sigma\) 用样本标准差 S 代替就得到了学生分布,而这里样本容量决定了 t 分布的自由度。

这里简单推一即可:

根据定义我们知道 \(\frac{\overline X-\hat\mu}{\frac{S}{\sqrt{n}}}\sim t(n-1)\),同样利用分位点的定义,我们可以计算得出,样本容量为 n ,样本标准差为 S,估计均值为 \(\hat\mu\) 的置信区间就是 \(\overline X \in [\hat\mu+\frac{S}{\sqrt{n}}t_{1-\frac{\alpha}{2}}(n-1),\hat\mu+\frac{S}{\sqrt{n}}t_{\frac{\alpha}{2}}(n-1)]\)

样本方差置信区间计算

同样根据定义我们有 \(\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)\),根据分位点,我们可以得到 \(\frac{(n-1)S^2}{\sigma^2} \in [\chi^2_{1-\frac{\alpha}{2}}(n-1),\chi^2_{\frac{\alpha}{2}}(n-1)]\),后面应该挺简单的,就是不等式化简,得到 \(\sigma^2\in[\frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}]\)

两个正态分布方差比值的置信区间计算

这里我们假设两个正态分布的方差分别为 \(\sigma_1^2,\sigma_2^2\),我们从第一个正态分布抽取了 \(n_1\) 个样本,标准差为 \(S_1\),第二个正态分布抽取了 \(n_2\) 个样本,标准差为 \(S_2\)。从上面过来,我们知道两个卡方分布比它们各自的自由度的比值应该是服从 F 分布的,F分布的自由度分别为两个卡方分布的自由度。

\(\frac{\frac{(n_1-1)S_1^2}{\sigma_1^2}}{\frac{(n_2-1)S_2^2}{\sigma_2^2}}\sim \frac{\chi^2(n_1-1)}{\chi^2(n_2-1)}\),像上面说的,每个卡方分布除它们的自由度,得到了F分布,因此 \(\frac{\frac{S_1^2}{\sigma_1^2}}{\frac{S_2^2}{\sigma_2^2}}\sim F(n_1-1,n_2-1)\),再整理一下就是 \(\frac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2}\sim F(n_1-1,n_2-1)\),再根据分位点计算出这个随机变量的置信区间:\(\frac{S_1^2\sigma_2^2}{S_2^2\sigma_1^2}\in[F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1),F_{\frac{\alpha}{2}}(n_1-1,n_2-1)]\)

这里化简比较简单了,没有加加减减,直接乘过去那个标准差的比值就行了,\(\frac{\sigma_2^2}{\sigma_1^2}\in[\frac{S_1^2}{S_2^2}F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1),\frac{S_1^2}{S_2^2}F_{\frac{\alpha}{2}}(n_1-1,n_2-1)]\),这里需要最后一个 F 分布的公式,那就是交换 F 分布的自由度之后,原分位点会变成上分位点的倒数。即:\(F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1)=\frac{1}{F_{\frac{\alpha}{2}}(n_2-1,n_1-1)}\),这个结论记住就行了,也不难,因此上面的置信区间也不唯一,可以根据给定的条件灵活变换。

以上所有置信区间的公式我觉得并不需要会背,但是要会推,根据一个变量服从什么样的分布,通过分位点计算区间,然后再倒回去推出你所需要的随机变量的置信区间。