[读书笔记-西瓜书] 线性判别分析：LDA

线性判别分析（Linear Discriminant Analysis, LDA）又称Fisher判别分析，是一种数据降维的方法，主要思想是使属于同一类的投影点距离尽可能地接近（类内方差小），不同类的中心点距离尽可能地远（类间中点距离大）。

LDA就是模识课上黄老板讲的Fisher判别，名字不同而已。思想也很简单，计算也不复杂。首先定义一些变量：

$x_i：i类数据的训练样本$

$\mu_i：i类数据的均值向量$

$\Sigma_i：i类数据的协方差矩阵$

投影到直线 $w$ 上后，样本中心（均值）所在的投影就变为 $w^T\mu_i$ ，协方差变为 $w^T\Sigma_i w$ ，推一下协方差：

展开协方差的定义： $\Sigma_i=\sum_{j=1}^n(x_j-u_i)^2$

变换后的协方差定义：$\Sigma’i=\sum{j=1}^n(w^Tx_j-w^Tu_i)^2$

则有：
$$
\Sigma’i=\sum{j=1}^n(w^Tx_j-w^Tu_i)^2=\sum_{j=1}^n(w^T(x_j-u_i))^2
$$

$=\sum_{j=1}^nw^T(x_j-u_i)(w^T(x_j-u_i))^T$

$=\sum_{j=1}^nw^T(x_j-u_i)(x_j-u_i)^Tw$

$=w^T\sum_{j=1}^n(x_j-u_i)^2w$

$=w^T\Sigma_iw$

用变换后的协方差作为衡量类内点的“集中”程度，我们尽可能想让这个值小。于是第一个目标可以用这个值逼近。

为了叙述方便，现在假设分类任务是二分类，分别是0、1类。第二个目标类间距离可以直接比较类内中点之间的距离测度，定义类间距为中点的Euclidean Distance平方： $Dis(0,1)=|w^T\mu_0-w^T\mu_1|^2$ 来衡量。我们希望这个值尽可能大

定义： $S_w’=\Sigma’_0+\Sigma’_1$ ， $S_b’=Dis(0,1)$ 。

同时考虑上述两个指标，于是做商合成一个目标函数（突然想起自己的paper里也搞过这种设计）：

$J=\dfrac{S_b’}{S_w’}=\dfrac{|w^T\mu_0w-w^T\mu_1|^2}{w^T\Sigma_0w+w^T\Sigma_1w}$

$=\dfrac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}$

目标即为通过调整 $w$ 最大化 $J$ ， $S’_b$ 和 $S’_w$ 的比值称为“广义瑞利商”。由于分子和分布都是关于 $w$ 的二次项，因此解只与 $w$ 的方向有关。方程等价于优化下式：

$\min_w -w^TS’_bw$

$st.\ w^TS’_ww=1$

这是个带约束的极值求解问题，可以用高数中学过的拉格朗日乘数法解决，构造拉格朗日函数：

$L(w)=-w^TS’_bw+\lambda(w^TS’_ww-1)$
令上式的导数得0，即可得：

$w=S_w’^{-1}(\mu_0-\mu_1)$
问题转换成求解

$S’_w$ 的逆。注意该阵通常情况下不可逆，原因是数据维数和数据条目数通常是不匹配，就是说数据集并不能确定地体现数据的分布情况。

书上介绍的实际是PCA方法，直接给 $S’_w$ 进行SVD分解，得到 $S’_w=U\Sigma V^T$ ，于是 $S_w’^{-1}=(U\Sigma V^T)^{-1}=V\Sigma^{-1}U^T$ 。

最终我们可推得：

$w=V\Sigma^{-1}U^T(\mu_0-\mu_1)$