数理统计

随机变量

掷骰子,可能是正面,也可能是反面。
箱子里摸球,可能摸到红球,也可能摸到白球,也可能摸到黄球。
数学中喜欢把这些结果符号化。用X表示掷骰子,或摸球的结果。这个X就是随机变量。

总体与样本

统计的总体用X表示。
从总体中抽取样本记为 X_1,X_2,X_3,X_4... ,他们都是随机变量。
如果抽完了,观测值记为 x_1,x_2,x_3,x_4... ,观测值是实际的数值。

抽出的样本可以是一个元素也可以是一组元素。一般来说,抽出的简单随机样本是由 n 个随机变量, X_1, X_2,...,X_n 组成的。这个样本可以认为形成了一个 n 维随机向量 X=(X_1,X_2,...,X_n)

问题:总体X是不是随机变量?

有些教程上说X是随机变量,也有些教程写X是所有取值的集合。很迷惑😮‍💨。
我倾向于X是一个集合,因为集合才可以抽样呀。所以我们要注意,这个总体X符号与随机变量X的符号一样,不要弄混了。
我们经常会说这是一个正态总体,但这并不表明这个总体是一个服从正态分布的随机变量,而是指如果从这个总体中抽取一个随机变量X ,则X服从正态分布,这个随机变量X 的分布称作总体分布。

统计量

统计量的定义:不含任何未知参数的样本的函数。

例如,把几个样本相加,就是统计量
X_1+X_2+X_3+...+X_n

再例如:
X_1^2+X_2^2+...+X_n^2

统计量的分布

卡方分布 X_{i} \sim N(0,1) X^{2} \sim \chi^{2}(1)
\sum_{i=1}^{n} X_{i}^{2} \sim \chi^{2}(n)
\sum_{i=2}^{n} X_{i}^{2} \sim \chi^{2}(n-1)
EX=n DX=2n

t分布

X \sim N(0,1)
Y \sim \chi^{2}(n)

\frac{X}{\sqrt{Y / n}} \sim t(n)

Et=0

F分布

X \sim \chi^{2}(n_1)
Y \sim \chi^{2}(n_2)

\frac{X/n_1}{Y/n_2} \sim F(n_1,n_2)

正态分布总体下的常用结论

\overline{X}与S^{2}相互独立

因为:

X \sim N\left(\mu, \sigma^{2}\right)

则:

\overline{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right)

标准化:

\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\sim N\left(0, 1\right)

用样本方差代替总体方差,则有:

\frac{\overline{X}-\mu} {S/\sqrt{n}}\sim t(n-1)

根据卡方分布的定义有:

\sum_{i=1}^{n}\left(\frac{X_{i}-\mu}{\sigma}\right)^{2} \sim \chi^{2}(n)

若用样本均值代替总体均值,则有:

\sum_{i=1}^{n}\left(\frac{X_{i}-\overline{X}}{\sigma}\right)^{2} \sim \chi^{2}(n-1)

再根据:

S^{2} =\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}

则有:

\frac{(n-1)S^2}{\sigma^2} \sim \chi^{2}(n-1)

因为

\left(\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\right)^2\sim \chi^{2}(1)

所以

\frac{(\frac{\overline{X}-\mu} {\sigma/\sqrt{n}})^2/1}{\frac{(n-1)S^2}{\sigma^2}/(n-1)}\sim \frac{\chi^{2}(1)}{\chi^{2}(n-1)}

\frac{n(\overline{X}-\mu)^{2}}{S^{2}} \sim F(1, n-1)

矩估计

矩估计的思路是直接用估计量代表总体的特征,从而求出模型中的参数,即令:

\overline{X}= EX

D(X_1)=D(X_2)=\cdots = DX

样本只是从一堆物品中抽出一部分当样本。 X_1 代表多个样本,所以 D(X_1) 并不是0。根据上面的定义,有如下推导:

\begin{array} {rl}D(\overline{X})=&D(\dfrac{X_1+X_2+X_3+...+X_n}{n})\\=&\dfrac{1}{n^2}D(X_1+X_2+X_3+...+X_n)\\ =&\dfrac{1}{n}D(X)\end{array}

最大似然估计

如果总体模型中有参数 \theta 未确定,写出样本发生的概率L,此时L必定是关于 \theta 的函数。

实际上我们已经得到样本了,所以我们假设此时L发生的概率是最大的,只需求出使L取得最大值的参数 \theta ,即为估计的模型参数。

均值和方差

\overline{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}

S^{2} =\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}

注:为什么方差是 S^{2} =\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2} 而不是 S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2} 呢?因为前者是无偏估计。

E \hat{\theta}=\theta ,则称 \hat{\theta} \theta 的无偏估计量,否则是有偏估计。

区间估计与假设检验

\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\sim N\left(0, 1\right)

\frac{\overline{X}-\mu} {S/\sqrt{n}}\sim t(n-1)

\frac{(n-1)S^2}{\sigma^2} \sim \chi^{2}(n-1)

区间估计一般都会给个叫 \alpha 的东西,是分布两边小概率部分的概率。
image

根据 \alpha 查表可知,中间大概率部分的取值范围为:

-z_{\frac{\alpha}{2}} \leqslant \frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\leqslant z_{\frac{\alpha}{2}}

这个公式就是区间估计和假设检验的核心。区间估计就是求这个公式中的某个参数,因为这个公式是个区间,求出的参数也是个区间。假设检验是把假设代入这个公式,符合就接受,否则就拒绝。

情况一:求 \mu 的区间估计
此时题目中会给出 \overline{X} n \sigma \alpha ,根据 \alpha 查表可得 z_{\frac{\alpha}{2}} ,于是方程中仅 \mu 是未知的,整理可得:

\overline{X}-z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \overline{X}+z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}

情况二:求 n
此时题目中会给出 \overline{X} \mu \sigma \alpha ,根据 \alpha 查表可得 z_{\frac{\alpha}{2}} ,于是方程中仅 n 是未知的,整理可得:

\left(\frac{-z_{\frac{\alpha}{2}}\sigma}{\overline{X}-\mu}\right)^2\leqslant n \leqslant \left(\frac{z_{\frac{\alpha}{2}}\sigma}{\overline{X}-\mu}\right)^2

此时求出的n是唯一的,为了增加难度,题目中的某一个参数可能会给一个区间,这样n也是一个区间。

情况三:求 z_{\frac{\alpha}{2}} \alpha
那个公式里面还有 z_{\frac{\alpha}{2}} \alpha 可以求,不过暂时没遇到这种题,若是真遇到根据原理仔细分析应该也不难。


posted @ 2021-09-08 21:38:19
评论加载中...
发表评论