logo头像

贾维斯的小屋

机器学习的数学基础:矩阵论

1. 基本概念

1.1 向量及其转置

一个$d$维列向量$x$及其转置$x^t$可记作:

1.2 矩阵及其转置

一个$n \times d$的矩阵$\mathbf M$及其$d \times n$的转置矩阵$\mathbf M^t$为:

1.3 对称矩阵与反对称矩阵

一个$d \times d$的方阵, 如果其元素满足$m_{ij}=m_{ji}$,则称为对称矩阵;一个的$d \times d$方阵,如果其元素满足$m_{ij}=-m_{ji}$,则称为斜对称矩阵或反对称矩阵。

1.4 单位矩阵$ \mathbf I$

单位矩阵必须为方阵,其对角线元素均为1,非对角线元素均为0。

1.5 对角矩阵

非对角线元素均为0的矩阵,也记作$diag(m_{11}, m_{22}, \dots, m_{dd})$

1.6 向量或矩阵相加减

向量或矩阵的相加减即为对应元素相加减,参与运算的两个向量或矩阵维数必须相等

1.7 矩阵与向量相乘

矩阵与向量相乘$\mathbf M \mathbf x=\mathbf y$可以表示为:

其中:$y_i=\sum\limits_{j=0}^d m_{ij}x_j$。注意矩阵的列数必须等于向量的行数


2. 向量内积与外积

2.1 向量内积

两个具有相同维数的向量$\mathbf x$与$\mathbf y$的内积记为$\mathbf x^t \mathbf y$,这是一个标量:

内积也称作点积,记为$\mathbf x \cdot \mathbf y$或$\langle \mathbf x , \mathbf y \rangle$。

2.2 欧几里德范数

向量的欧几里德范数即为向量的长度,定义为:

如果一个向量$\mathbf x$满足$\begin{Vmatrix}\mathbf x \end{Vmatrix}= 1$,则称这个向量是归一化的

2.3 两个向量的夹角

两个d维向量的夹角为:

当$\mathbf x^t\mathbf y=0$时,这两个向量是正交的。当$\begin{Vmatrix}\mathbf x^t \mathbf y\end{Vmatrix}= \begin{Vmatrix}\mathbf x \end{Vmatrix}\begin{Vmatrix}\mathbf y \end{Vmatrix}$时,这两个向量是共线的。

由于对于任意角度$\theta$都有$|cos\theta|\leq 1$,由式(7)可得柯西-施瓦茨不等式:

2.4 线性相关与线性无关

对于一组给定的向量$\lbrace \mathbf x_1, \mathbf x_2, \dots, \mathbf x_n \rbrace$,如果其中不存在任何一个能被表示为其余向量的线性组合的向量,那么这组向量是线性无关的,反之则是线性相关。一组d个线性无关的d维向量能够张成一个d维向量空间,也就是说,这个空间中的任意向量都可以表示为这些线性无关向量的线性组合。

2.5 向量的外积

两个向量的外积为一个矩阵:


3. 矩阵的导数

3.1 取标量值的函数的导数

设$f(\mathbf x)$是一个取标量值得函数,有d个自变量$x_i(i=1,2, \dots, d)$,用向量$\mathbf x$表示。则函数$f(\cdot)$关于自变量$\mathbf x$的梯度为:

3.2 取值为向量的函数的导数

设$\mathbf f$是一个值为n维向量的向量函数,其自变量为d维向量$\mathbf x$,则$\mathbf f$关于自变量的梯度为:

称矩阵$\mathbf J(\mathbf x)$为雅克比矩阵

3.3 矩阵$\mathbf M$关于标量参数$\theta$的导数

设矩阵$\mathbf M$的每个元素都是关于某个标量参数$\theta$的函数,则此矩阵关于参数的导数为:

3.4 常用公式


4. 行列式和迹

4.1 求解行列式

  • $2 \times 2$的矩阵的行列式:
  • 余子式:如果$\mathbf M$为$d \times d$的矩阵,任一元素$m_{ij}$的余子式$\mathbf M_{i|j}$定义为,从原始矩阵$\mathbf M$中分别划去第$i$行和第$j$列的所有元素后,得到的$(d-1) \times (d-1)$的矩阵。$m_{ij}$的代数余子式$C_{ij}$为余子式$\mathbf M_{i|j}$与$(-1)^{i+j}$的乘积。

以三维矩阵$\mathbf A$为例:

$a_{12}$的余子式$\mathbf A_{1|2}$表示为:

$a_{12}$的代数余子式$C_{12}$表示为:

  • 高阶矩阵的行列式:对于二阶矩阵的行列式,我们可以通过式(16)计算,对于更阶的矩阵,我们通过余子式来计算。如果$|\mathbf M_{i|j}|$已经计算得到,那么高阶矩阵行列式的计算有如下公式:
  • 行列式的一些性质:对于任意矩阵,有:

当两个矩阵$\mathbf M$与$\mathbf N$的大小相同时,有:

矩阵的行列式在坐标系旋转时保持不变。

4.2 矩阵的迹

  • 定义:对于$d \times d$的方阵,矩阵的迹定义为主对角线上的元素之和,即:

矩阵的迹在坐标系旋转时保持不变。


5. 矩阵的逆

  • 定义:只要一个$d \times d$矩阵$\mathbf M$的行列式不为零,那么它对应的逆矩阵$\mathbf M^{-1}$就存在,并且满足:
  • 伴随矩阵:矩阵$\mathbf M$的伴随矩阵记为$Adj[\mathbf M]$,它的第$i$行第$j$列元素为矩阵第$j$行第$i$列的余子式$C_{ji}$,即:
  • 逆的计算:
  • 伪逆:如果$\mathbf M$不是方阵,或者$\mathbf M$的列向量不是线性无关的,则$\mathbf M^{-1}$不存在,我们通常用伪逆矩阵$\mathbf M^{\dagger}$来代替$\mathbf M^{-1}$。如果$\mathbf M^t \mathbf M$非奇异(即$|\mathbf M^t \mathbf M|\neq0$),则伪逆矩阵定义为:
  • 逆的性质:

6. 特征值与特征向量

  • 线性方程组的解:对于$d \times d$的矩阵$\mathbf M$,一类非常重要的线性方程组的形式为:

其中$\lambda$为标量。上式可以写为:

其中$\mathbf I$为单位阵,为d维零向量。线性方程组(26)的解向量$\mathbf x=\mathbf e_i$和对应的标量系数$\lambda = \lambda_i$即为特征向量和特征值。
一种求解特征向量和特征值得方法是求解特征方程:

特征方程的各个根就是特征值。然后对应每个根,我们通过求解线性方程组来得到特征值对应的特征向量。

  • 重要性质:全部特征值之和为矩阵的迹,全部特征值的乘积为矩阵的行列式,即:
微信打赏

赞赏是不耍流氓的鼓励