《概率与数理统计》到底讲了啥?

概率

概率、条件概率、排列组合、组合概率等基本知识。这些都是高中学过的。

引入随机变量

二项分布,典型的例子就是置硬币,正面朝上的概率是p,置n次,求k次正面向上的概率。
和超几何分布,典型的例子是抽样,箱子里r个红w个黑,无放回抽n次,抽到红球的概率。

从二项分布和超几何分布,我们可以看到,我们经常求的概率不是样本空间中的一个样本的概率,而是很多样本的概率和。例如,二项分布中P(k次正面向上),代表了样本空间中很多样本的概率相加。
定义一个值到样本空间中样本的映射函数,这个函数被称为随机变量。
例如:定义X为成功k次的随机变量,P(成功k次)就可以写成P(X=k)。

随机变量

概率密度函数
累积分布函数

联合概率密度函数
联合累积分布函数
随机变量的和、商、积、最大值、最小值的概率密度函数

联合概率、随机变量的组合这里最容易出题,因为容易和微积分联系到一起。我记着有个叫分布函数法的专门处理这里的问题。

常见分布及其数字特征

二项分布和超几何分布

柏松分布,是二项分布 n\rightarrow\infty,p\rightarrow 0 时的结果。

正态分布,是二项分布 n\rightarrow\infty,p\rightarrow \frac{1}{2} 时的结果。

中心极限定理,说的是同分布的n个随机变量的平均值,服从正态分布。后面区间估计和假设检验就是根据这个定理来的。

模型参数估计

极大似然估计
矩估计
无偏估计,这里我们证明一下方差S的定义

区间估计

根据中心极限定理有

\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\sim N\left(0, 1\right)

根据标准正态分布表,可知a和b:

P(a\leqslant \frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\leqslant b)=0.95

于是我们可以推导出

P(?\leqslant \mu \leqslant ?)=0.95

于是 \mu 的区间就出来了。

假设检验

假设检验也是根据中心极限定理来的

\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\sim N\left(0, 1\right)

假设检验的时候 \mu \sigma 都是已知的,所以 \frac{\overline{X}-\mu} {\sigma/\sqrt{n}} 大概率应该落在标准正态分布的中心位置,此时我们接受 H_0 ,如果落在正态分布的边缘,我们就拒绝 H_0 。原理大概如此,不过根据 H_1 的定义可以分成三种情况:

t检验

前面区间估计和假设检验都是方差已知的情况。但很多时候模型的方差也是未知的,我们需要根据抽样数据估计模型的方差。

根据中心极限定理

\frac{\overline{X}-\mu} {\sigma/\sqrt{n}}\sim N\left(0, 1\right)

但是用 S 替换 \sigma 还服从标准正态分布吗?

这里有一个故事。很长时间数学家们都认为替换后还是服从标准正态分布的,但是一位在葡萄园酿酒的人在实践中发现, \frac{\overline{X}-\mu} {S/\sqrt{n}} 并不服从标准正态分布,它服从一个与正态分布很像的分布叫t分布。这个结论是一个先从实践中发现结论,后来科学家补充的证明过程。

\frac{\overline{X}-\mu} {S/\sqrt{n}}\sim t(n-1)

\mu 的区间估计和假设检验过程,与方差已知的过程完全一致,只不过将标准正态分布替换成了t分布。

方差未知的时候,我们还需要对方差进行区间估计和假设检验:

\frac{(n-1)S^2}{\sigma^2} \sim \chi^{2}(n-1)

\sigma^2 的区间估计和假设检验过程,和前面也一样。

posted @ 2021/08/04 18:53:27