3a0454cdc60784a2bb272c37ecec12c1.png

Note: 将 Fisher 判别分析放入非参这一部分框架来讲,原因是在Fisher判别分析里同样没有假设数据的分布形式,而是以基于投影后的数据形态的Fisher指标作为优化线性模型的依据。

1. Background and Motivation

在统计学习的模式识别问题中,我们常常会遇到一个令人头疼的问题:维数灾难。50-100维,已经算是一个高维问题了。从参数估计的方法来看,我们对高维数据的联合概率分布知之甚少,尤其是多维特征间有依赖关系时,我们更是难以给出一个合理的分布假设;从非参估计的角度来看,维数灾难对估计所需样本的体量提出了巨大的挑战。那么怎么去应对这样的高维数据呢?

机器学习往往假设这些高维特征是具有相关性,或是冗余的。他们的数据结构往往可以嵌入在某个低维的空间中。因此,解决高维特征的一种经典思路是对原有的高维数据进行降维,希望新的低维空间(

维 )能尽可能地表达出数据的组成,结构和分类信息,如数据点之间的相似性,以及数据类标等。

2. Basic idea

在没有训练数据类标信息的情况下,PCA 降维将尽可能地寻找最优的子空间来表达原数据的结构特征;

在有监督的情况下,Fisher 线性判别分析 (LDA, Linear Discriminative Analysis) 则是一种经典的方法。我们往往希望找到一个针对数据

在最优方向
上的低维(
维)投影

这一最优投影方向

应当满足, 这个低维投影中最优地蕴含着类标信息:在这个低维投影
中,
同一类别的投影尽可能地靠近,而不同类别地投影能尽可能的区分开来。这就是 LDA 的基本思想,而这一衡量指标就是我们的Fisher 指标。

3. Fisher LDA: 二分类问题

(1) Basic idea

我们从二分类问题开始讨论,这时候我们将原

维特征通过一
维向量
投影到一维空间中。也就是对于每一个样本
, 它的投影
如下:

对于得到的低维投影,我们希望不同类别地投影能尽可能的区分开来,而同一类别的投影尽可能地靠近。下图中,右边的投影向量就优于左边的投影向量,因为它的投影

对不同类别有更大的区分。基于以上准则,我们确立了Fisher指标。

0c6a83a489e835cde9db691d06b210dc.png

一方面,为了使得不同类别地投影能尽可能的区分开来,我们考虑这两类的样本均值,

我们希望这两类的样本均值尽可能地背离, 即

尽可能大。

另一方面,为了使得同一类别的投影尽可能地靠近,我们考虑类内样本的散度,

我们希望类内样本尽可能聚在同一区域,即
尽可能地小。

综上,Fisher 判别分析的目标是,

(2) Derivation

我们将

代入
得到,

其中,

,而
.

具体推导过程如下:

而 类间散度为:

其中,

是一个常数, 所以 内积可以表示为
。这二者等价。

这一表达在数学物理中被称为广义瑞利熵,我们知道要最大化瑞利熵的必要条件是, 存在一个向量
使得,

这一问题转化为

的特征根求解问题。

通过Fisher 判别分析,我们通过向量

将原高维数据降低到一维空间中,并使得他们最大化地蕴含了分类信息。

4. Fisher LDA的优缺点:

(1)优点: Fisher LDA 在有监督的情况下,最大化地保留了分类信息,这一分类信息由一个非参指标,Fisher 指标来衡量。

(2)缺点: Fisher LDA 只能将数据降到

维, 但
维也可能会有许多的损失信息,造成精度上的损失。但有时候,人们愿意牺牲一些精度,来获得在低维上识别的优势。

参考文献:

Duda R O, Hart P E. Pattern recognition and scene analysis[J]. 1973.

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐