logo头像

贾维斯的小屋

机器学习——线性模型

一、线性回归

给定由$d$个属性描述的样本$\boldsymbol{x}=(x_1; x_2; .. ; x_d)$(列向量),数据集$D=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \ldots,\left(\boldsymbol{x}_{m}, y_{m}\right)\right\}$,线性回归试图学得一个线性组合来进行预测的函数:

其中权重$\boldsymbol{w}=\left(w_{1} ; w_{2} ; \ldots ; w_{d}\right)$,偏置$b$为标量

1、一元线性回归

先考虑最简单的情况:样本只有一个属性,即一元线性回归。此问题试图学得

这里使用均方误差来衡量$f(x)$与$y$之间的差别,使得均方误差最小的$w$和$b$即为所求,即:

基于均方误差最小化来求解模型的方法称为最小二乘法,就是试图找到一条直线,是所有样本到直线上的欧式距离之和最小。设损失$E=\sum_{i=1}^{m}\left(f\left(x_{i}\right)-y_{i}\right)^{2}$,将$E$对$w$和$b$分别求导,得到:

然后令两式都为0,得到解析解:

其中$\overline{x}=\frac{1}{m} \sum_{i=1}^{m} x_{i}$为均值。

2、多元线性回归

而更一般的情况是本文开头所给出的数据集的形式,样本有$d$个属性,此时我们试图学得

这里我们将权重$\boldsymbol{w}$和偏置$b$整合在一起:$\hat{\boldsymbol{w}}=(\boldsymbol{w} ; b)$,同样得数据集$D$表示为一个$m \times (d+1)$大小的矩阵$\boldsymbol{X}$,即:

标签也写成向量形式$\boldsymbol{y}=\left(y_{1} ; y_{2} ; \ldots ; y_{m}\right)$,我们同样使用均方误差最小化:

令$E=(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X} \hat{\boldsymbol{w}})$,展开得到:

对$\hat{\boldsymbol{w}}$求导得到:

此处推到用到的矢量导数公式:

若$\boldsymbol{X}^{T} \boldsymbol{X}$为满秩矩阵或正定矩阵,令$\frac{\partial E}{\partial \hat{\boldsymbol{w}}}=0$,得:

3、正则化回归

现实中$\boldsymbol{X}^{T} \boldsymbol{X}$往往不是满秩矩阵,比如$\boldsymbol{X}$的列数多于行数,此时可能会有多个$\hat{\boldsymbol{w}}^{*}$。这时候可以引入正则化项:

其中$||\hat{\boldsymbol w}||^2=\sum w_{i}^{2}$,可解得:

$\boldsymbol I$为单位矩阵,相当于为$\boldsymbol{X}^{T} \boldsymbol{X}$的对角线元素增加了$\lambda$,增强矩阵求逆数值的稳定性。此形式的正则化回归称为岭回归(ridge regression)。如果将$||\hat{\boldsymbol w}||^2$(L2正则化)换成$|\hat{\boldsymbol w}|$(L1正则化),则称为lasso(least absolute shrinkage and selection operator),lasso对$\lambda$非常敏感,可以得到稀疏解,但lasso没有解析解。

二、线性判别分析LDA(Linear Discriminant Analysis)

LDA基本思想:将样本投影到一条直线上,使同类样本的投影点尽可能近,异类样本投影点尽可能远;在对新样本进行分类时,将其投影到这条直线上,根据投影点的位置确定类别。

1、两类LDA

给定数据集$D=\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{m}$, $y_{i} \in\{0,1\}$,令$X_{i}, \boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}$分别为第$i$类的集合、均值向量和协方差矩阵,投影到直线$\boldsymbol w$上,则两类中心在直线上的投影分别为$\boldsymbol w^{\mathrm{T}} \boldsymbol \mu_{0}$和$\boldsymbol w^{\mathrm{T}} \boldsymbol \mu_{1}$;协方差分别为$\boldsymbol w^{\mathrm{T}} \boldsymbol \Sigma_{0} \boldsymbol w$和$\boldsymbol w^{\mathrm{T}} \boldsymbol \Sigma_{1} \boldsymbol w$。

要使同类投影点尽可能近,则$\boldsymbol w^{\mathrm{T}} \boldsymbol \Sigma_{0} \boldsymbol w + \boldsymbol w^{\mathrm{T}} \boldsymbol \Sigma_{1} \boldsymbol w$要尽可能小。

要使异类投影点尽可能远,则$\left|\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{0}-\boldsymbol{w}^{\mathrm{T}} \boldsymbol{\mu}_{1}\right|_{2}^{2}$要尽可能大。

同时考虑两者,可得最大化的目标函数:

  • 定义类内散度矩阵

  • 定义类间散度矩阵

可重新定义目标函数:

LDA即是最大化$\mathbf{S}_{b}$和$\mathbf{S}_{w}$的广义瑞利商。

瑞利商

$x$为非零向量,$A$为$n \times n$的Hermitan矩阵,满足$A^{H}=A$,即共轭转置矩阵和自己相等。如果A是实矩阵,则满足$A^{T}=A$的为Hermitan矩阵。瑞利商有一个非常重要的性质,即它的最大值等于矩阵A最大的特征值,而最小值等于矩阵A的最小的特征值,也就是满足

广义瑞利商是指这样的函数$R(A, B, x)$:

其中$x$为非零向量,而$A$,$B$为$n \times n$的Hermitan矩,$B$为正定矩阵。

若$\boldsymbol{w}$是一个解,那么对于任意常数$\alpha$,$\alpha \boldsymbol{w}$也是$J$的解,因此$J$的解与$\boldsymbol{w}$的长度无关,只与其方向有关。可以令$\boldsymbol{w}^{T} \boldsymbol{S}_{w} \boldsymbol{w}=1$,则最大化$J$等价于:

由朗格朗日乘子,上式等价于:

由于$\mathbf{S}_{b} \boldsymbol{w}=\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}$,$\left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)^{\mathrm{T}} \boldsymbol{w}$为标量,所以$\mathbf{S}_{b} \boldsymbol{w}$的方向恒为$\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}$。不妨设$\mathbf{S}_{b} \boldsymbol{w}=\lambda \left(\boldsymbol{\mu}_{0}-\boldsymbol{\mu}_{1}\right)$,可得:

推论:当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。

2、多分类情况

LDA推广到多分类任务,设有$N$个类,第$i$类样本数目为$m_{i}$。

  • 重新定义类内散度矩阵:

其中:$\mathbf{S}_{w_{i}}=\sum_{\boldsymbol{x} \in X_{i}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{\mathrm{T}}$

  • 定义全局散度矩阵:

其中$\sum_{j=1}^{N} \sum_{\boldsymbol{x} \in X_{j}}\left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{i}\right)^{T}=\mathbf{S}_{w}$,$\sum_{j=1}^{N} \sum_{\boldsymbol{x} \in X_{j}} \left(\boldsymbol{\mu}_{j}-\boldsymbol{\mu}\right)\left(\boldsymbol{\mu}_{j}-\boldsymbol{\mu}\right)^{T}=\mathbf{S}_{b}$,$\sum_{j=1}^{N} \sum_{\boldsymbol{x} \in X_{j}} \left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)\left(\boldsymbol{\mu}_{j}-\boldsymbol{\mu}\right)^{T}=\sum_{j=1}^{N} \sum_{\boldsymbol{x} \in X_{j}} \left(\boldsymbol{\mu}_{j}-\boldsymbol{\mu}\right)\left(\boldsymbol{x}-\boldsymbol{\mu}_{j}\right)^{T}=0$,因此:

  • 重新定义类间散度矩阵:

最优化目标函数可写为:

其中$\mathbf{W}=\left[\boldsymbol{w}_{1}, \boldsymbol{w}_{2}, \dots, \boldsymbol{w}_{i}, \dots, \boldsymbol{w}_{k}\right]$,$\boldsymbol{w}_{i}$为d行1列的列向量,则:

上式可以通过如下广义特征值问题求解:

将$\mathbf{W}$视为一个投影矩阵,则多分类LDA将样本投影到$k$维空间,$k$通常远小于样本维度$d$。LDA也经常被视为一种监督降维方法。

参考资料

微信打赏

赞赏是不耍流氓的鼓励