logo头像

贾维斯的小屋

机器学习的数学基础:概率论

一、概率论公理

1、样本空间和事件

  • 对于一个试验,所有可能的结果构成的集合,称为该试验的样本空间,并即为$S$。

  • 并:对于一个样本空间$S$的任意两个事件$E$和$F$,事件$E\bigcup F$称为$E$和$F$的并。

  • 交:$EF$或$E\bigcap F$,即事件$E$和$F$同时发生

  • 若$EF=\emptyset$,称事件$E$和$F$互不相容

  • 补:$\overline E$,包含在样本空间但不包含在$E$中的所有结果

  • 事件的交、并、补遵循的运算法则:

    • 交换律:$E \bigcup F=F \bigcup E$, $EF=FE$
    • 结合律:$(E \bigcup F) \bigcup G=E \bigcup (F \bigcup G)$, $(EF)G=E(FG)$
    • 分配率:$(E \bigcup F) G=EG \bigcup FG$, $EF \bigcup G=(E \bigcup G)(F \bigcup G)$
  • 摩根定律:

    2、概率论公理

定义事件E的概率$P(E)$为E发生的次数占试验总次数的比例的极限:

概率论的三个公理:

  • 公理1:

  • 公理2:

  • 公理3:对任一系列互不相容事件$E_{1}, E_{2}, …$,有:

我们把满足以上3条公理的$P(E)$称为事件E的概率

3、几个简单的命题

  • 命题1:

  • 命题2:

  • 命题3:

二、条件概率和独立性

1、条件概率

  • 假定A发生的情况下B发生的条件概率,即为$P(B|A)$。有如下定义:

    将上式同乘$P(A)$,可得:

    说明A和B同时发生的概率等于A发生的概率乘以在A发生的条件下B发生的概率。推广可得乘法规则:

  • 独立事件:若$P(EF)=P(E)P(F)$,那么E和F独立。

2、贝叶斯公式

  • 全概率公式:假定$F_{1}, F_{2}, \dots , F_{n}$是互不相容事件,且$\bigcup_{i=1}^{n}F_{i}=S$,换言之,这些事件中必有一件发生。记$E=\bigcup_{i=1}^{n}EF_{i}$,又由于事实上$EF_{i}$是互不相容的,可以得到如下公式:

    上述公式说明$P(E)$发生的概率等于$P(E|F_{i})$的加权平均,每项的权为$F_{i}$发生的概率。

  • 贝叶斯公式:现假设E发生了,需要计算$F_{j}$的概率:

三、随机变量

1、离散型随机变量

若一个随机变量有多个可能的取值,则称这个变量为离散型的。对于随机变量$X$,有如下定义的函数:

称为$X$的累计分布函数分布函数。对于任一给定的实数$x$,分布函数为改随机变量小于等于$x$的概率。$F(X)$是$x$的单调非降函数。

定义X的概率分布列为:

分布列最多可在可数个a上去正值。由于X必定取值于$\{x_1, x_2, \dots\}$,所以有$\sum_{i=1}^{\infty}p(x_i)=1$。

离散型随机变量的分布函数$F$可通过分布列$p(a)$进行计算:

若X是个离散型随机变量,去可能取值为$\{x_1, x_2, \dots | x_1 < x_2 < \dots\}$,则它的分布函数是个阶梯函数。例如如果X的分布列为$P(1)=1/4, P(2)=1/2, P(3)=1/8, P(4)=1/8$,那么其累计分布函数为:

2、期望

随机变量X的分布列为$p(x)$,那么X的期望为:

X的期望就是X的所有可能取值的一个加权平均,每个值得权重就是X取该值的概率。

  • 命题1:如果X是一个离散型随机变量,其可能取值为$x_i, i \geq 1 $,相应的取值概率为$p(x_i)$,那么对于任一实值函数$g$,都有:

  • 推论1:若a和b是常数,则:

  • 推论2:对于随机变量$X_1, X_2, \dots, X_n$:

3、方差

如果随机变量X的期望为$\mu$,那么X的方差为:

方差等于X与它的期望的差的平方的期望,它度量了X可能取值的分散程度。下面是一个有用的恒等式:

$\sqrt{Var(X)}$称为X的标准差

四、连续型随机变量

1、连续型随机变量

设X是一个随机变量,如果存在一个定义在实数轴上的非负函数$f$,使得对于任一实数集$B$,满足:

则称X为连续型随机变量,函数$f$为随机变量X的概率密度函数。上式表明了X属于B的概率可由概率密度函数$f(x)$在集合B上的积分得到。例如令$B=[a, b]$,那么可得:

若令a=b,则有$P\{X=a\}=\int_{a}^{a}f(d){\rm d}x=0$。也就是说,连续型随机变量取任何固定值的概率都等于0。因此,对于一个连续型随机变量X,有:

2、连续型随机变量的期望和方差

  • 定义连续型随机变量的期望为:

    • 命题:设X是一个连续型随机变量,其概率密度函数为$f(x)$,那么对于任一实值函数$g$,有:

    • 引理:对于一个非负随机变量$Y$,有:

    • 推论:如果a和b都是常数,那么:

另一种公式为:

【未完待续】

参考资料

  • 《概率论基础教程(原书第9版)》[美]Sheldon M. Ross
微信打赏

赞赏是不耍流氓的鼓励