本文是斯坦福大学CS229机器学习课程的基础材料，原始文件下载

原文作者：Arian Maleki ， Tom Do
翻译：石振宇
审核和修改制作：黄海广
备注：请关注github的更新。

CS229 机器学习课程复习材料-概率论

概率论复习和参考

概率论是对不确定性的研究。通过这门课，我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂，并且涉及到“分析”的一个分支：测度论。在这篇笔记中，我们提供了概率的一些基本处理方法，但是不会涉及到这些更复杂的细节。

1. 概率的基本要素

为了定义集合上的概率，我们需要一些基本元素，

$\Omega$ $w \in \Omega$ 可以被认为是实验结束时现实世界状态的完整描述。
$\mathcal{F}$ $A \in \mathcal{F}$ $\Omega$ $A \subseteq \Omega$ 是一个实验可能结果的集合）。
$\mathcal{F}$ 需要满足以下三个条件：
$\emptyset \in \mathcal{F}$
$A \in \mathcal{F} \Longrightarrow \Omega \backslash A \in \mathcal{F}$
$A_1,A_2,\cdots A_{i} \in \mathcal{F}\Longrightarrow\cup_{i} A_{i} \in \mathcal{F}$
$P$ $P$ $\mathcal{F} \rightarrow \mathbb{R}$ 的映射，满足以下性质：
- $A \in \mathcal{F}$ $P(A) \geq 0$ ,
- $P(\Omega) = 1$
- $A_1 ,A_2 ,\cdots$ $i \neq j$ $A_{i} \cap A_{j}=\emptyset$ ), 那么：

P\left(\cup_{i} A_{i}\right)=\sum_{i} P\left(A_{i}\right)

以上三条性质被称为概率公理。

举例：

$\Omega= \{1，2，3，4，5，6\}$ $\mathcal{F} = \{\emptyset,\Omega\}$ $\Omega$ $P(\emptyset) = 0$ $p(\Omega)= 1$ $i/6$ $i$ $P(\{1,2,3,4\}) =4/6$ $P(\{1,2,3\}) =3/6$ 。

性质：

$A \subseteq B$ $P(A) \leq P(B)$
$P(A \cap B) \leq min(P(A),P(B) )$
$P(A \cup B) \leq P(A)+P(B)$
$P(\Omega |A ) =1-P(A)$
$A_1，\cdots，A_k$ $\Omega$ ，那么它们的概率之和是1

1.1 条件概率和独立性

$B$ $B$ $A$ 的条件概率为：

P(A | B) \triangleq \frac{P(A \cap B)}{P(B)}

$P(A|B$ $B$ $A$ $P(A \cap B) = P(A)P(B)$ $P(A|B) = P(A)$ $B$ $A$ 的概率没有任何影响。

2. 随机变量

$\Omega$ $w_0 = \{H，H，T，H，T，H，H，T，T，T\}\in\Omega$ 。然而，在实践中，我们通常不关心获得任何特定正反序列的概率。相反，我们通常关心结果的实值函数，比如我们10次投掷中出现的正面数，或者最长的背面长度。在某些技术条件下，这些函数被称为随机变量。

$X$ $\Omega \longrightarrow \mathbb{R}$ $X(\omega)$ $X$ $\omega$ $x$ 来表示随机变量的值。

举例： $X(\omega)$ $\omega$ $X(\omega)$ 离散随机变量 $X$ $k$ 的概率为：

P(X=k) :=P(\{\omega : X(\omega) =k\})

举例： $X(\omega)$ $X(\omega)$ 连续随机变量 $X$ $a$ $b$ $a < b$ )表示为：

P(a \leq X \leq b) :=P(\{\omega : a \leq X(\omega) \leq b\})

2.1 累积分布函数

为了指定处理随机变量时使用的概率度量，通常可以方便地指定替代函数(CDF、PDF和PMF)，在本节和接下来的两节中，我们将依次描述这些类型的函数。

累积分布函数(CDF) $F_{X} : \mathbb{R} \rightarrow[0,1]$ ，它将概率度量指定为：

F_{X}(x) \triangleq P(X \leq x)

通过使用这个函数，我们可以计算任意事件发生的概率。图1显示了一个样本CDF函数。

图1：一个累计分布函数(CDF)

性质：

$0 \leq F_{X}(x)\leq 1$
$\lim _{x \rightarrow-\infty} F_{X}(x)=0$
$\lim _{x \rightarrow\infty} F_{X}(x)=1$
$x \leq y \Longrightarrow F_{X}(x)\leq F_{X}(y)$

2.2 概率质量函数

$X$ $X$ PMF $p_{X} : \Omega \rightarrow \mathbb{R}$ ，这样：

p_{X}(x) \triangleq P(X=x)

$Val(X)$ $X$ $X(\omega)$ $Val(X) =\{0，1，2，...，10\}$ 。

性质：

$0 \leq p_{X}(x)\leq 1$
$\sum_{x \in V \text { al }(X)} p_{X}(x)=1$
$\sum_{x \in A} p_{X}(x)=P(X \in A)$

2.3 概率密度函数

$F_X (x)$ 处可微。在这些情况下，我们将概率密度函数(PDF)定义为累积分布函数的导数，即：

f_{X}(x) \triangleq \frac{d F_{X}(x)}{d x}

请注意，连续随机变量的概率密度函数可能并不总是存在的(即，如果它不是处处可微)。

$\Delta x$ ，

P(x \leq X \leq x+\Delta x) \approx f_{X}(x) \Delta x

CDF和PDF(概率密度函数(PDF) $f _X (x) \not = P(X = x)$ $f _X (x)$ $f _X (x)$ $\mathbb{R}$ 的任何子集上的积分最多为1)。

性质：

$f_X(x)\geq 0$
$\int_{-\infty}^{\infty} f_{X}(x)=1$
$\int_{x \in A} f_{X}(x) d x=P(X \in A)$

2.4 期望

$X$ PMF $p_X (x)$ $g : \mathbb{R} \longrightarrow \mathbb{R}$ $g(X)$ $g(X)$ 的期望值定义为：

E[g(X)] \triangleq \sum_{x \in V a l(X)} g(x) p_{X}(x)

$X$ PDF $f _X (x)$ $g(X)$ 的期望值被定义为：

E[g(X)] \triangleq \int_{-\infty}^{\infty} g(x) f_{X}(x) d x

$g(X)$ $g(x)$ $x$ $p_X(x)$ $f_X(x)$ $g(x) = x$ 得到的，这也被称为随机变量的平均值。

性质：

$a \in \mathbb{R}$ $E[a]=a$
$a \in \mathbb{R}$ $E[af(X)]=aE[f(X)]$
$E[f(X)+g(X)]=E[f(X)]+E[g(X)]$
$X$ $E[1\{X=k\}]=P(X=k)$

2.5 方差

$X$ 方差 $X$ $X$ 的方差定义为：

\operatorname{Var}[X] \triangleq E\left[(X-E(X))^{2}\right]

使用上一节中的性质，我们可以导出方差的替代表达式:

\begin{aligned} E\left[(X-E[X])^{2}\right] &=E\left[X^{2}-2 E[X] X+E[X]^{2}\right] \\ &=E\left[X^{2}\right]-2 E[X] E[X]+E[X]^{2} \\ &=E\left[X^{2}\right]-E[X]^{2} \end{aligned}

$E[X]$ 相对于外层期望实际上是常数的事实。

性质：

$a \in \mathbb{R}$ $Val[a]=0$
$a \in \mathbb{R}$ $Var[af(X)]=a^2Var[f(X)]$

举例：

$X$ $x \in [0，1]$ PDF $p_X(x)= 1$ ，其他地方为0。

E[X]=\int_{-\infty}^{\infty} x f_{X}(x) d x=\int_{0}^{1} x d x=\frac{1}{2}

E\left[X^{2}\right]=\int_{-\infty}^{\infty} x^{2} f_{X}(x) d x=\int_{0}^{1} x^{2} d x=\frac{1}{3}

Var[X]=E[X^2]-E[X]^2=\frac{1}{3}-\frac{1}{4}=\frac{1}{12}

举例：

$A \subseteq \Omega$ $g(x) = 1\{x \in A\}$ $E[g(X)]$ ?

离散情况：

E[g(X)]=\sum_{x \in V a l(X)} 1\{x \in A\} P_{X}(x) d x=\sum_{x \in A} P_{X}(x) d x=P(x \in A)

连续情况：

E[g(X)]=\int_{-\infty}^{\infty} 1\{x \in A\} f_{X}(x) d x=\int_{x \in A} f_{X}(x) d x=P(x \in A)

2.6 一些常见的随机变量

离散随机变量

$p$ $0 \leq p \leq 1$ ），如果正面发生，则为1，否则为0。
$p(x)=\left\{\begin{array}{ll}{p} & {\text { if } p=1} \\ {1-p} & {\text { if } p=0}\end{array}\right.$
$p$ $0 \leq p \leq 1$ $n$ 次独立投掷中正面的数量。

p(x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x}(1-p)^{n-x}

$p$ $p >0$ ）的硬币第一次掷出正面所需要的次数。
$\lambda >0$ ）。

p(x)=e^{-\lambda} \frac{\lambda^{x}}{x !}

连续随机变量

$a$ $b$ $a<b$ ）。

f(x)=\left\{\begin{array}{ll}{\frac{1}{b-a}} & {\text { if } a \leq x \leq b} \\ {0} & {\text { otherwise }}\end{array}\right.

$\lambda >0$ ）。

f(x)=\left\{\begin{array}{ll}{\lambda e^{-\lambda x}} & {\text { if } x \geq 0} \\ {0} & {\text { otherwise }}\end{array}\right.

正态分布：又被称为高斯分布。

f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}

一些随机变量的概率密度函数和累积分布函数的形状如图2所示。

图2：一些随机变量的概率密度函数(PDF)和累积分布函数(CDF)

下表总结了这些分布的一些特性：

分布	概率密度函数(PDF)或者概率质量函数(PMF)	均值	方差
$Bernoulli(p)$ (伯努利分布)	$\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {1-p} & {\text { if } x=0}\end{array}\right.$	$p$	$p(1-p)$
$Binomial(n,p)$ (二项式分布)	$\left(\begin{array}{l}{n} \\ {k}\end{array}\right) p^{k}(1-p)^{n-k}$ $0 \leq k \leq n$	$np$	$npq$
$Geometric(p)$ (几何分布)	$p(1-p)^{k-1}$ $k=1,2,\cdots$	$\frac{1}{p}$	$\frac {1-p}{p^2}$
$Poisson(\lambda)$ (泊松分布)	$e^{-\lambda} \lambda^{x} / x !$ $k=1,2,\cdots$	$\lambda$	$\lambda$
$Uniform(a,b)$ (均匀分布)	$\frac{1}{b-a}$ $x \in (a,b)$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
$Gaussian(\mu,\sigma^2)$ (高斯分布)	$\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}$	$\mu$	$\sigma^2$
$Exponential(\lambda)$ (指数分布)	$\lambda e^{-\lambda x}$ $x\geq0,\lambda>0$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$

3. 两个随机变量

$X(\omega) =$ $Y (\omega) =$ 连续最长出现正面的长度。在本节中，我们考虑两个随机变量的设置。

3.1 联合分布和边缘分布

$F_X (x)$ $F_Y (y)$ $X$ $Y$ $X$ $Y$ 的联合累积分布函数，定义如下:

F_{XY}(x,y)=P(X \leq x,Y \leq y)

$X$ $Y$ 的事件的概率。

CDF $F_{XY }(x,y)$ $F_X(x)$ $F_Y (y)$ 分别由下式关联:

F_{X}(x)=\lim _{y \rightarrow \infty} F_{X Y}(x, y) d y

F_{Y}(y)=\lim _{y \rightarrow \infty} F_{X Y}(x, y) dx

$F_X(x)$ $F_Y (y)$ $F_{XY }(x,y)$ 的边缘累积概率分布函数。

性质：

$0 \leq F_{XY }(x,y) \leq 1$
$\lim _{x, y \rightarrow \infty} F_{X Y}(x, y)=1$
$\lim _{x, y \rightarrow -\infty} F_{X Y}(x, y)=0$
$F_{X}(x)=\lim _{y \rightarrow \infty} F_{X Y}(x, y)$

3.2 联合概率和边缘概率质量函数

$X$ $Y$ 联合概率质量函数 $p_{X Y} : \mathbb{R} \times \mathbb{R} \rightarrow [0,1]$ 由下式定义：

p_{X Y}(x,y)=P(X=x,Y=y)

$x$ $y$ $0 \leq P_{XY} (x,y) \leq 1$ $\sum_{x \in V a l(X)} \sum_{y \in V a l(Y)} P_{X Y}(x, y)=1$

两个变量上的联合PMF分别与每个变量的概率质量函数有什么关系？事实上：

p_{X}(x)=\sum_{y} p_{X Y}(x, y)

$p_Y (y)$ $p_X(x)$ $X$ 的边际概率质量函数。在统计学中，将一个变量相加形成另一个变量的边缘分布的过程通常称为“边缘化”。

3.3 联合概率和边缘概率密度函数

$X$ $Y$ $F_{XY}$ $F_{XY}(x,y)$ $x$ $y$ 中处处可微的情况下，我们可以定义联合概率密度函数：

f_{X Y}(x, y)=\frac{\partial^{2} F_{X Y}(x, y)}{\partial x \partial y}

$f_{XY}(x,y)\not= P(X = x,Y = y)$ ，而是：

\iint_{x \in A} f_{X Y}(x, y) d x d y=P((X, Y) \in A)

$f_{XY}(x,y)$ $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X Y}(x, y)=1$

与离散情况相似，我们定义:

f_{X}(x)=\int_{-\infty}^{\infty} f_{X Y}(x, y) d y

$X$ 的边际概率密度函数边际密度 $f_Y (y)$ 也类似。

3.4 条件概率分布

$X$ $x$ $Y$ $Y$ 的条件概率质量函数是简单的：

p_{Y | X}(y | x)=\frac{p_{X Y}(x, y)}{p_{X}(x)}

假设分母不等于0。

$X = x$ 的条件概率密度为：

f_{Y | X}(y | x)=\frac{f_{X Y}(x, y)}{f_{X}(x)}

假设分母不等于0。

3.5 贝叶斯定理

当试图推导一个变量给定另一个变量的条件概率表达式时，经常出现的一个有用公式是贝叶斯定理。

$X$ $Y$ ：

P_{Y | X}(y | x)=\frac{{P_{XY}}(x, y)}{P_{X}(x)}=\frac{P_{X | Y}(x | y) P_{Y}(y)}{\sum_{y^{\prime} \in V a l(Y)} P_{X | Y}\left(x | y^{\prime}\right) P_{Y}\left(y^{\prime}\right)}

$X$ $Y$ ：

f_{Y | X}(y | x)=\frac{f_{X Y}(x, y)}{f_{X}(x)}=\frac{f_{X | Y}(x | y) f_{Y}(y)}{\int_{-\infty}^{\infty} f_{X | Y}\left(x | y^{\prime}\right) f_{Y}\left(y^{\prime}\right) d y^{\prime}}

3.6 独立性

$X$ $Y$ $F_{XY}(x,y) = F_X(x)F_Y(y)$ $X$ $Y$ 是独立的。等价地，

$x \in Val(X)$ $y \in Val(Y)$ $p_{XY}(x,y) = p_X (x)p_Y (y)$ 。
$p_Y |X (y|x) = p_Y (y)$ $y \in Val(Y)$ $p_X (x) \not= 0$ 。
$f_{XY}(x,y) = f_X (x)f_Y(y)$ $x,y \in \mathbb{R}$ 。
$f_{Y |X} (y|x) = f_Y (y)$ $f_X (x)\not = 0$ $y \in \mathbb{R}$ 。

$X$ $Y$ $f(x)$ $f(y)$ $(X，Y)$ 的所有信息。以下引理将这一观察形式化:

引理3.1

$X$ $Y$ $A，B⊆ \mathbb{R}$ ，我们有：

P(X \in A, Y \in B)=P(X \in A) P(Y \in B)

$X$ $Y$ $X$ $Y$ 的任何函数无关。

3.7 期望和协方差

$X$ $Y$ $g : \mathbf{R}^{2} \longrightarrow \mathbf{R}$ $g$ 的期望值以如下方式定义：

E[g(X, Y)] \triangleq \sum_{x \in V a l(X)} \sum_{y \in V a l(Y)} g(x, y) p_{X Y}(x, y)

$X$ $Y$ ，类似的表达式是：

E[g(X, Y)]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_{X Y}(x, y) d x d y

我们可以用期望的概念来研究两个随机变量之间的关系。特别地，两个随机变量的协方差定义为：

{Cov}[X, Y] \triangleq E[(X-E[X])(Y-E[Y])]

使用类似于方差的推导，我们可以将它重写为：

\begin{aligned} {Cov}[X, Y] &=E[(X-E[X])(Y-E[Y])] \\ &=E[X Y-X E[Y]-Y E[X]+E[X] E[Y]] \\ &=E[X Y]-E[X] E[Y]-E[Y] E[X]+E[X] E[Y]] \\ &=E[X Y]-E[X] E[Y] \end{aligned}

$E[X]$ $E[Y]$ $cov[X，Y] = 0$ $X$ $Y$ 不相关。

性质：

$E[f(X,Y ) + g(X,Y)] = E[f(X,Y )] + E[g(X,Y)]$
$V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov[X,Y]$
$X$ $Y$ $Cov[X,Y ] = 0$
$X$ $Y$ $E[f(X)g(Y )] = E[f(X)]E[g(Y)]$ .

4. 多个随机变量

$n$ $X _1 (\omega),X_2 (\omega),\cdots X_n (\omega)$ 。在本节中，为了表示简单，我们只关注连续的情况，对离散随机变量的推广工作类似。

4.1 基本性质

$X_1,X_2,\cdots,X_n$ 的联合累积分布函数联合概率密度函数 $X_2,\cdots,X_n$ $X_1$ 的边缘概率密度函数为：

F_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)=P\left(X_{1} \leq x_{1}, X_{2} \leq x_{2}, \ldots, X_{n} \leq x_{n}\right)

f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)=\frac{\partial^{n} F_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)}{\partial x_{1} \ldots \partial x_{n}}

f_{X_{1}}\left(X_{1}\right)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{2} \ldots d x_{n}

f_{X_{1} | X_{2}, \ldots, X_{n}}\left(x_{1} | x_{2}, \dots x_{n}\right)=\frac{f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \dots x_{n}\right)}{f_{X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)}

$A \subseteq \mathbb{R}^{n}$ 的概率，我们有：

P\left(\left(x_{1}, x_{2}, \ldots x_{n}\right) \in A\right)=\int_{\left(x_{1}, x_{2}, \ldots x_{n}\right) \in A} f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{1} d x_{2} \ldots d x_{n}

链式法则：

从多个随机变量的条件概率的定义中，可以看出：

\begin{aligned} f\left(x_{1}, x_{2}, \ldots, x_{n}\right) &=f\left(x_{n} | x_{1}, x_{2} \ldots, x_{n-1}\right) f\left(x_{1}, x_{2} \ldots, x_{n-1}\right) \\ &=f\left(x_{n} | x_{1}, x_{2} \ldots, x_{n-1}\right) f\left(x_{n-1} | x_{1}, x_{2} \ldots, x_{n-2}\right) f\left(x_{1}, x_{2} \ldots, x_{n-2}\right) \\ &=\cdots=f\left(x_{1}\right) \prod_{i=2}^{n} f\left(x_{i} | x_{1}, \ldots, x_{i-1}\right) \end{aligned}

$A_1,\cdots ,A_k$ $A_1,\cdots ,A_k$ $S \subseteq \{1，2,\cdots,k\}$ ，我们有：

P\left(\cap_{i \in S} A_{i}\right)=\prod_{i \in S} P\left(A_{i}\right)

$X_1,X_2,\cdots,X_n$ 是独立的，如果：

f(x_1,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n)

这里，相互独立性的定义只是两个随机变量独立性到多个随机变量的自然推广。

$(x^{ (1)},y^{(1)})$ $m-1$ 个副本添加到训练集中。在这种情况下，我们有：

P\left(\left(x^{(1)}, y^{(1)}\right), \ldots .\left(x^{(m)}, y^{(m)}\right)\right) \neq \prod_{i=1}^{m} P\left(x^{(i)}, y^{(i)}\right)

$m$ ，但这些例子并不独立！虽然这里描述的过程显然不是为机器学习算法建立训练集的明智方法，但是事实证明，在实践中，样本的不独立性确实经常出现，并且它具有减小训练集的“有效大小”的效果。

4.2 随机向量

$\Omega$ $\mathbb{R}^n$ $n$ 个随机变量的一种替代符号，因此联合概率密度函数和综合密度函数的概念也将适用于随机向量。

期望:

$g : \mathbb{R}^n \rightarrow \mathbb{R}$ 中的任意函数。这个函数的期望值被定义为

E[g(X)]=\int_{\mathbb{R}^{n}} g\left(x_{1}, x_{2}, \ldots, x_{n}\right) f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{1} d x_{2} \ldots d x_{n}E[g(X)]\\=\int_{\mathbb{R}^{n}} g\left(x_{1}, x_{2}, \ldots, x_{n}\right) f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{1} d x_{2} \ldots d x_{n}

$\int_{\mathbb{R}^{n}}$ $-\infty$ $\infty$ $n$ $g$ $\mathbb{R}^n$ $\mathbb{R}^m$ $g$ $g$ 是：

g(x)=\left[\begin{array}{c}{g_{1}(x)} \\ {g_{2}(x)} \\ {\vdots} \\ {g_{m}(x)}\end{array}\right]

那么，

E[g(X)]=\left[\begin{array}{c}{E\left[g_{1}(X)\right]} \\ {E\left[g_{2}(X)\right]} \\ {\vdots} \\ {E\left[g_{m}(X)\right]}\end{array}\right]

$X:\Omega\rightarrow \mathbb{R}^n$ $\Sigma$ $n \times n$ $\Sigma_{i j}={Cov}\left[X_{i}, X_{j}\right]$ 给出。从协方差的定义来看，我们有：

\begin{aligned} \begin{equation} \Sigma=\left[\begin{array}{ccc}{{Cov}\left[X_{1}, X_{1}\right]} & {\cdots} & {{Cov}\left[X_{1}, X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {{Cov}\left[X_{n}, X_{1}\right]} & {\cdots} & {{Cov}\left[X_{n}, X_{n}\right]}\end{array}\right]\\ =\left[\begin{array}{ccc}{E\left[X_{1}^{2}\right]-E\left[X_{1}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{1} X_{n}\right]-E\left[X_{1}\right] E\left[X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {E\left[X_{n} X_{1}\right]-E\left[X_{n}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{n}^{2}\right]-E\left[X_{n}\right] E\left[X_{n}\right]}\end{array}\right]\\ =\left[\begin{array}{ccc}{E\left[X_{1}^{2}\right]} & {\cdots} & {E\left[X_{1} X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {E\left[X_{n} X_{1}\right]} & {\cdots} & {E\left[X_{n}^{2}\right]}\end{array}\right]-\left[\begin{array}{ccc}{E\left[X_{1}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{1}\right] E\left[X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {E\left[X_{n}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{n}\right] E\left[X_{n}\right]}\end{array}\right]\\ =E\left[X X^{T}\right]-E[X] E[X]^{T}=\ldots=E\left[(X-E[X])(X-E[X])^{T}\right] \end{equation} \end{aligned}

其中矩阵期望以明显的方式定义。协方差矩阵有许多有用的属性:

$\Sigma \succeq 0$ $\Sigma$ 是正半定的。
$\Sigma=\Sigma^T$ $\Sigma$ 是对称的。

4.3 多元高斯分布

$X\in \mathbb{R}^n$ $\mu \in \mathbb{R}^n$ $\Sigma \in \mathbb{S}_{++}^{n}$ $\mathbb{S}_{++}^{n}$ $n \times n$ 矩阵的空间)

$f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots, x_{n} ; \mu, \Sigma\right)=\frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)$

$X \sim \mathcal{N}(\mu, \Sigma)$ $n = 1$ $\mu_1$ $\Sigma_{11}$ 。

一般来说，高斯随机变量在机器学习和统计中非常有用，主要有两个原因：

首先，在统计算法中对“噪声”建模时，它们非常常见。通常，噪声可以被认为是影响测量过程的大量小的独立随机扰动的累积；根据中心极限定理，独立随机变量的总和将趋向于“看起来像高斯”。

其次，高斯随机变量便于许多分析操作，因为实际中出现的许多涉及高斯分布的积分都有简单的封闭形式解。我们将在本课程稍后遇到这种情况。

5. 其他资源

一本关于CS229所需概率水平的好教科书是谢尔顿·罗斯的《概率第一课》(A First Course on Probability by Sheldon Ross)。