数理统计

image

常见统计量及统计量分布

统计量就是随机变量的函数(不含总体参数)。

从正态分布中抽样很容易,所以抽样分布很好模拟,这些抽样分布会在统计的时候用到。

卡方分布

X_{i} \sim N(0,1)
\sum_{i=1}^{n} X_{i}^{2} \sim \chi^{2}(n)

t分布

X \sim N(0,1)
Y \sim \chi^{2}(n)
\frac{X}{\sqrt{Y / n}} \sim t(n)

F分布

X \sim \chi^{2}(n_1)
Y \sim \chi^{2}(n_2)
\frac{X/n_1}{Y/n_2} \sim F(n_1,n_2)

正态分布总体下的常用结论

X_{1}, X_{2}, \cdots, X_{n} 是取自正态总体 N\left(\mu, \sigma^{2}\right) 的一个样本,\bar{X}, S^{2} 分别是样本的均值和方差,则:

\bar{X} \sim N\left(\mu, \frac{\sigma^{2}}{n}\right),即\frac{\bar{X}-\mu}{\frac{\sigma}{\sqrt{n}}}=\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma} \sim N(0,1)

\frac{1}{\sigma^{2}} \sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2} \sim \chi^{2}(n)

\frac{(n-1) S^{2}}{\sigma^{2}}=\sum_{i=1}^{n}\left(\frac{X_{i}-\bar{X}}{\sigma}\right)^{2} \sim \chi^{2}(n-1)

\bar{X}S^{2}相互独立,\frac{\sqrt{n}(\bar{X}-\mu)}{S} \sim t(n-1),进一步有\frac{n(\bar{X}-\mu)^{2}}{S^{2}} \sim F(1, n-1)

点估计

矩估计

概率论告诉我们,总体有很多数字特征,例如期望和方差:

\begin{array}{}E X=\sum_{i} x_{i} p_{i} \\ 
D X=\sum_{i}\left(x_{i}-E X\right)^{2} p_{i}\end{array}

如果我们不知道总体的信息,但是我们可以轻松采集到许多样本X_1,X_2,...,X_n,那么能否根据这些样本来估计总体的数字特征?根据样本很容易可以计算出样本的均值和方差:

\begin{array}{}\overline{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} \\
S^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}\end{array}

问题在于,样本的数字特征是否就是总体的数字特征?误差有多大?

统计学家证明,用样本均值估计总体均值(数学期望),是一个好的估计(这是一个矩估计)。但是用样本方差估计总体方差系统偏低,需要做适当修正,修正后的估计被称为无偏估计

S^{2} =\frac{1}{n-1} \sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}

总体的模型中参数未确定,我们用样本来估计总体,令

\overline{X}= EX

S^{2}= DX

即可求出这个参数。

以上的均值和方差其实是一阶矩和纠偏后的二阶中心矩,所以这种估计方式被称为矩估计。当然也可以直接用未纠偏的二阶矩来估计,不过估计的结果不是无偏估计。

最大似然估计

如果总体模型中有参数\theta未确定,写出样本发生的概率L,此时L必定是关于\theta的函数。

实际上我们已经得到样本了,所以我们假设此时L发生的概率是最大的,只需求出使L取得最大值的参数\theta,即为估计的模型参数。

估计量的评价

E \hat{\theta}=\theta,则称\hat{\theta}\theta的无偏估计量。

区间估计

随机抽取一个个体指标x,我们可以用x \pm \sigma来估计平均值\overline{a},因为标准差的意思是个体的指标大体处在\overline{a} \pm \sigma的范围,这种方法叫区间估计

不过这种估计方法准确率不是很高。如果事先知道分布情况,根据分布进行估计,那么精度会高很多。假设我们事先根据经验或历史记录,知道总体服从正态分布:

X \sim N\left(\mu, \sigma^{2} \right)

则:

\overline{X} \sim N\left(\mu, \sigma^{2} / n\right)

标准化:

\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\sim N\left(0, 1\right)

查标准正态分布表可知:

P\left\{-1.96 \leqslant \frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\leqslant 1.96\right\} = 0.95

P\left\{\overline{X}-1.96\frac{\sigma}{\sqrt{n}} \leqslant \mu \leqslant \overline{X}+1.96\frac{\sigma}{\sqrt{n}}\right\}= 0.95

由此我们估计出了\mu在上述区间的概率为0.95,这个数字叫置信度

你会发现,区间长度与样本数量n成反比,在置信度确定的情况下,如果你想降低区间长度,可以增大样本数。

上述例子假设方差已知,但是多数场景方差未知,此时可以用样本方差代替总体方差,不过代替后的变量已经不在服从标准正态分布,而是服从自由度为n-1的t分布

\frac{\overline{X}-\mu} {S/\sqrt{n}}\sim t(n-1)

从而:

P\left\{-t_{n-1}(0.95) \leqslant \frac{\overline{X}-\mu} {S/\sqrt{n}}\leqslant t_{n-1}(0.95)\right\} = 0.95

P\left\{\overline{X}-t_{n-1}(0.95)\frac{S}{\sqrt{n}} \leqslant \mu \leqslant \overline{X}+t_{n-1}(0.95)\frac{S}{\sqrt{n}}\right\}= 0.95

我们已经解决了方差已知和方差未知的正态分布的估计问题,但是如果总体不符合正态分布怎么办?

中心极限定理告诉我们,不论原总体的分布如何,只要样本n很大(总体N无限大),变量\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}仍近似地有正态分布,甚至在把\sigma用其估计值S代替时,这个性质仍成立。

注:这个性质只有在当n相当大时才成立。具体n要达到多大才行,这个问题统计学家还没解决。

假设检验

假设检验是用统计学回答一个“是"或“否”,例如根据统计数据回答吸烟与患肺癌是否有关联,新工艺是否优于原工艺。在未取得数据之前的假设叫做原假设,也叫零假设。例如未取得数据之前假设吸烟与患肺癌无关。

假设检验是对是否接受原假设作一明确的选择。具体做法就是:

  1. 计算样本数据与原假设的偏离
  2. 计算样本数据对原假设的支持程度,即拟合优度\gamma
  3. 将拟合优度\gamma与检验水平\alpha比较。若\gamma<\alpha,则否定原假设。若\gamma \geqslant \alpha,则接受原假设。

检验界限值\alpha取的越小越好吗?不。因为当你缩小第一类错误的概率时,第二类错误的概率会上升。(第一类错误指原假设是对的,但被否定了;第二类错误指原假设不对,但被接受了)

拿孟德尔的豌豆实验举例,孟德尔假设4种豆子的比例应为9:3:3:1,对应的频率为(0.563,0.188,0.188,0.063)。

我们做了两组实验,每组采集160个样本:

设原假设的频率为(p_1,p_2,...,p_k),样本数为n,样本k种豆子的比例为(V_1,V_2,...,V_k)。第一步,计算数据与原假设的偏离:

l=c_{1}\left(\frac{V_{1}}{n}-p_{1}\right)^{2}+c_{2}\left(\frac{V_{2}}{n}-p_{2}\right)^{2}+\cdots+c_{k}\left(\frac{V_{k}}{n}-p_{k}\right)^{2}

卡·皮尔逊将参数选为:

c_{1}=\frac{n}{p_{1}}, \quad c_{2}=\frac{n}{p_{2}}, \quad \cdots, \quad c_{k}=\frac{n}{p_{k}}

这样选择的好处是,l可以改为如下形式:

\chi^{2}=\frac{\left(V_{1}-n p_{1}\right)^{2}}{n p_{1}}+\cdots+\frac{\left(V_{k}-n p_{k}\right)^{2}}{n p_{k}}

V_i称为第i组的观察频数,np_i称为其理论频数。因此上式可形象的写为:

\chi^{2}=\sum \frac{(\text { 观察频数 }-\text { 理论频数 })^{2}}{\text { 理论频数 }}

第二步,计算数据对原假设的支持程度,即拟合优度\gamma\gamma等于在原假设成立的前提下,所有那些满足条件\chi^{2}\left(u_{1}, \cdots, u_{k}\right) \geqslant \chi^{2}\left(V_{1}, \cdots, V_{k}\right)的样本的概率和。

\gamma=\sum_{\chi^{2}\left(u_{1}, \cdots, u_{k}\right) \geqslant \chi^{2}\left(V_{1}, \cdots, V_{k}\right)} p_{\left(u_{1}, \cdots, u_{k}\right) }

故如严格按这个公式计算,这个过程十分繁复。皮尔逊1900年工作中的一个要点,就是他证明了,当样本大小n很大时,\gamma可通过一个所谓的\color{red}{\chi^{2}分布}去近似地算出来。

以上讨论的统计量都是离散的,下面讨论一下连续的统计量。

假设X服从正态分布N\left(a, \sigma^{2}\right),则\gamma可以转化为正态分布中|x|>c部分的面积。同样检验水平\alpha也可以转化为正态分布中|x|>u_{\alpha}部分的面积。

于是,\gamma >\alpha可以转化为c > u_{\alpha},即:

|\overline{x}-a|>\sigma u_{\alpha} / \sqrt{n}

这个检验法叫做u检验。

假设X服从正态分布N\left(a, \sigma^{2}\right),但不假定方差\sigma^{2}已知,我们需要用统计量的方差来代替方差,代替后的数据不再服从正态分布,而是服从t分布。推导过程与u检验相同,只不过是正态分布改为t分布。当

\sqrt{n}\left|\overline{x}-a_{0}\right| / s>t_{n-1}(\alpha)

时才否定原假设。这个检验法叫t检验

切比雪夫不等式、大数定律、中心极限定理

切比雪夫不等式对期望附近的一块区域进行估计:

P(|X-E(X)| \geqslant \epsilon) \leqslant \frac{D(X)}{\epsilon^{2}}

大数定律讲的是实验次数越多,实验结果越接近理论值。拿抛硬币举例,正面朝上的概率是\frac{1}{2}。抛两次硬币,有可能两次都朝上,或者两次都朝下。但当抛硬币的次数n无限大时,证明朝上的概率一定趋向\frac{1}{2}。换言之,随机事件的均值依概率收敛于随机事件的期望:

\frac{1}{n} \sum_{i=1}^{n} X_{i} \stackrel{P}{\longrightarrow} E\left(\frac{1}{n} \sum_{i=1}^{n} X_{i}\right)

中心极限定理讲的是n个独立同分布的随机变量,当n很大时,他们的和服从正态分布:

\sum_{i=1}^{n} X_{i} \sim N\left(n \mu, n \sigma^{2}\right)


posted @ 2021-05-21 14:44:17
评论加载中...

发表评论