随机变量
掷骰子,可能是正面,也可能是反面。
箱子里摸球,可能摸到红球,也可能摸到白球,也可能摸到黄球。
数学中喜欢把这些结果符号化。用X表示掷骰子,或摸球的结果。这个X就是随机变量。
总体与样本
统计的总体用X表示。
从总体中抽取样本记为,他们都是随机变量。
如果抽完了,观测值记为,观测值是实际的数值。
抽出的样本可以是一个元素也可以是一组元素。一般来说,抽出的简单随机样本是由 n 个随机变量,组成的。这个样本可以认为形成了一个 n 维随机向量 。
问题:总体X是不是随机变量?
有些教程上说X是随机变量,也有些教程写X是所有取值的集合。很迷惑😮💨。
我倾向于X是一个集合,因为集合才可以抽样呀。所以我们要注意,这个总体X符号与随机变量X的符号一样,不要弄混了。
我们经常会说这是一个正态总体,但这并不表明这个总体是一个服从正态分布的随机变量,而是指如果从这个总体中抽取一个随机变量X ,则X服从正态分布,这个随机变量X 的分布称作总体分布。
统计量
统计量的定义:不含任何未知参数的样本的函数。
例如,把几个样本相加,就是统计量
再例如:
统计量的分布
卡方分布 |
|
|
|
|
t分布
|
|
|
|
|
F分布
|
|
|
|
|
正态分布总体下的常用结论
因为:
则:
标准化:
用样本方差代替总体方差,则有:
根据卡方分布的定义有:
若用样本均值代替总体均值,则有:
再根据:
则有:
因为
所以
即
矩估计
矩估计的思路是直接用估计量代表总体的特征,从而求出模型中的参数,即令:
样本只是从一堆物品中抽出一部分当样本。代表多个样本,所以并不是0。根据上面的定义,有如下推导:
最大似然估计
如果总体模型中有参数未确定,写出样本发生的概率L,此时L必定是关于的函数。
实际上我们已经得到样本了,所以我们假设此时L发生的概率是最大的,只需求出使L取得最大值的参数,即为估计的模型参数。
均值和方差
注:为什么方差是而不是呢?因为前者是无偏估计。
若,则称为的无偏估计量,否则是有偏估计。
区间估计与假设检验
区间估计一般都会给个叫的东西,是分布两边小概率部分的概率。

根据查表可知,中间大概率部分的取值范围为:
这个公式就是区间估计和假设检验的核心。区间估计就是求这个公式中的某个参数,因为这个公式是个区间,求出的参数也是个区间。假设检验是把假设代入这个公式,符合就接受,否则就拒绝。
情况一:求的区间估计
此时题目中会给出、、、,根据查表可得,于是方程中仅是未知的,整理可得:
情况二:求
此时题目中会给出、、、,根据查表可得,于是方程中仅是未知的,整理可得:
此时求出的n是唯一的,为了增加难度,题目中的某一个参数可能会给一个区间,这样n也是一个区间。
情况三:求、
那个公式里面还有、可以求,不过暂时没遇到这种题,若是真遇到根据原理仔细分析应该也不难。