[读书笔记-西瓜书] 线性模型、Logistic回归

这是阅读周志华教授的《机器学习》中关于Logistic回归部分的笔记（在模识老师的安利下，最终还是买了西瓜书）。

Logistic回归音译为“逻辑回归”实在是太蠢了。

Logistic回归是西瓜书第三章“线性模型”中的内容，首先总结一下在logistic回归之前的知识点。

所谓线性回归就是定义一个线性函数 $f(x)=w^Tx+b$ ，经过在一个特定数据集上学习后获得参数 $w$ 和 $b$ 的过程。通常需要搭配优化算法使用，例如最小二乘法、梯度下降法、牛顿法、拟牛顿法 $^{[1,2]}$ 等，我将它们的特点总结如下：

最小二乘法：希望找到一条n维空间上的直线，使得所有数据点到这条线上的欧几里德距离最短（均方差误差最小），因为均方误差损失函数是凸的，所以最小二乘法直接对该损失函数关于 $w$ 和 $b$ 进行求导。

梯度下降法：这是一种迭代求解最优的算法，方法就是将参数沿着梯度负方向更新。这种算法经常陷入局部最优，而且速度未必快。有很多延伸的优化，比如随机梯度下降、带惯性的梯度下降等。

牛顿法：对拟合目标函数泰勒展开后求导后迭代，需要计算任意两个变量的二阶偏导的逆（海森矩阵的逆）所以计算复杂度高，但是收敛快。过程一图以蔽之：

拟牛顿法：把海森矩阵用个近似矩阵来代替，为了减少计算的复杂度，同时这个近似矩阵保证是可逆的（感谢HF同学的指正QAQ）。

但是通常的拟合任务并非是线性的，数据可能是符合某种非线性函数的变化（例如指数），因此有了对数线性回归（log-linear regression）。由于自变量的变化还是 $w^Tx+b$ ，因此还属于线性回归模型。更一般的形式如下：

$g(y)=w^Tx+b$

$y=g^{-1}(w^Tx+b)$

此处 $g(\cdot)$ 是一个非线性函数，这个函数需要“连续且充分光滑”。

分类任务和回归任务最大的区别是，分类需要一个hard-label，而回归通常是一个实数值的soft-label（hard-label和soft-label是我自己起的）。想用回归的方法进行分类，则需要有一个soft->hard的映射函数。

可以手动设阈值（阶跃，就是分段函数），但是不满足作为 $g(\cdot)$ 需要的充分条件。于是有人构造了更加光滑的logistic function（对数几率函数）：

$y=\dfrac{1}{1+e^{-z}}$
这是一种sigmoid函数：形似S的函数。我们想表示成

$g(y)=w^Tx+b$ 的形式，可以推：

$y=\dfrac{1}{1+e^{-z}}$

$y+ye^{-z}=1$

$\dfrac{1-y}{y}=e^{-z}$

$\ln\dfrac{1-y}{y}=-z$

$\ln\dfrac{y}{1-y}=z$

其中 $z=w^Tx+b$ ， $y$ 和 $1-y$ 分别可看作是正反例的可能性（logits），二者的比值取对数称为“对数几率 ”。通常写作：

$\ln\dfrac{p(y=1|x)}{p(y=0|x)}=z$
有：

$p(y=1|x)=\dfrac{e^{z}}{1+e^z}$
由于

$p(y=0|x)=1-p(y=1|x)$ ，则：

$p(y=0|x)=\dfrac{1}{1+e^z}$
使用极大似然估计

$w$ 和

$b$ ，构造损失函数

$l(w,b)=\sum_{i=1}^{m}\ln p(y_i|x_i;w,b)$ ，最大化该函数，整理一下就能得到loss函数的形式，之后就能用上述的最优化算法求它的最优解了。

Reference

[1]. https://www.cnblogs.com/shixiangwan/p/7532830.html