logo头像

贾维斯的小屋

机器学习——逻辑回归

一、逻辑回归

1、逻辑斯谛回归模型

我们可以用线性模型$z=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b$ 来做回归任务,如果我们用此线性模型来做分类任务,需要用一个单调可微函数$g(\cdot)$将分类任务的真实标签$y$与线性回归模型的预测值联系起来:

这里我们使用对数几率函数(logistic function):

它将$z$值转化为一个接近0或1的值,结合(1)和(2)可以得到:

将$y$视为样本$\boldsymbol{x}$是正例的可能性,则$1-y$是其反例的可能性,其比值$\frac y{1-y}$称为几率(odds),反映了$\boldsymbol{x}$作为正例的相对可能性,取对数得到$\mathrm{ln}\frac y{1-y}$,称为对数几率。这实际上使用线性回归模型的预测结果取逼近真实标签的对数几率。

上面提到$y$视为样本$\boldsymbol{x}$是正例的可能性,即$y=p(y=1|\boldsymbol{x})$,显然有:

2、极大似然估计

我们的任务就是估计参数$\boldsymbol{w}$和$b$,可以使用极大似然估计。给定数据集$\left\{\left(\boldsymbol{x}_{i}, y_{i}\right)\right\}_{i=1}^{m}$,并设$\boldsymbol{\theta}=\left\{\boldsymbol{w}, b\right\}$,$h_{\theta}(\boldsymbol{x})=\frac{e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b}}$,那么:

上式可以合写为:

则可以写出似然函数:

取对数得到对数似然函数:

每个样本属于真实标签的概率越大越好,因此要最大化对数似然函数:

$\ell(\boldsymbol{\theta})$是关于$\boldsymbol{\theta}$的高阶连续可导凸函数,可以使用梯度下降法、牛顿法等得到其最优解。以梯度下降法为例,我们需要最小化$-\ell(\boldsymbol{\theta})$:

对其求导得:

再更新梯度:

参考资料

  • 周志华《机器学习》
  • 李航《统计学习方法》
  • 吴恩达《机器学习》公开课
微信打赏

赞赏是不耍流氓的鼓励