特征提取与选择
模式识别中,分类识别的正确率取决于对象的表示、训练学习和分类识别算法,特征提取与选择问题是对象表示的一个关键问题。基于可分享度量的特征提取与选择通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。从本质上讲,我们的目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。 实现特征提取
模式识别中,分类识别的正确率取决于对象的表示、训练学习和分类识别算法,特征提取与选择问题是对象表示的一个关键问题。
基于可分享度量的特征提取与选择
通常在得到实际对象的若干具体特征之后,再由这些原始特征产生出对分类识别最有效、数目最少的特征,这就是特征提取与选择的任务。从本质上讲,我们的目的是使在最小维数特征空间中异类模式点相距较远(类间距离较大),而同类模式点相距较近(类内距离较小)。 实现特征提取与选择有两个基本途径:
(1)直接选择法:当实际用于分类识别的特征数目d 确定后,直接从已获得的 n 个原始特征中选出 d 个特征
x
1
,
x
2
,
⋯
,
x
d
x_1,x_2,\cdots,x_d
x1,x2,⋯,xd,使可分性判据 J 的值满足
J
(
x
1
,
x
2
,
⋯
,
x
d
)
=
m
a
x
{
J
(
x
i
1
,
x
i
2
,
⋯
,
x
i
d
)
}
J(x_1,x_2,\cdots,x_d)=max\{J(x_{i1},x_{i2},\cdots,x_{id})\}
J(x1,x2,⋯,xd)=max{J(xi1,xi2,⋯,xid)},其中
x
i
1
,
x
i
2
,
⋯
,
x
i
d
x_{i1},x_{i2},\cdots,x_{id}
xi1,xi2,⋯,xid 是 n 个原始特征中的任意 d 个特征,其表明的意思是直接从 n 维特征空间中寻找作用于分类的 d 维特征子空间。
即
x
⃗
=
(
x
1
,
x
2
,
⋯
,
x
n
)
T
⟶
(
J
→
m
a
x
)
y
⃗
=
(
y
1
,
y
2
,
⋯
,
y
d
)
T
,
d
<
n
,
其
中
y
i
∈
{
x
1
,
x
2
,
⋯
,
x
n
}
\vec x=(x_1,x_2,\cdots,x_n)^T \stackrel{(J\to max)}{\longrightarrow}\vec y=(y_1,y_2,\cdots,y_d)^T,d<n,其中\,y_i\in\{x_1,x_2,\cdots,x_n\}
x=(x1,x2,⋯,xn)T⟶(J→max)y=(y1,y2,⋯,yd)T,d<n,其中yi∈{x1,x2,⋯,xn}
主要方法有:分支定界法、回归建模确定相关特征等方法。
(2)变换法:在使判据 J 取最大的目标下,对 n 个原始特征进行变换降维,即对原 n 维特征空间进行坐标变换,然后再取子空间,即 x ⃗ = ( x 1 , x 2 , ⋯ , x n ) T ⟶ ( J → m a x ) y ⃗ = h ( x ⃗ ) = ( y 1 , y 2 , ⋯ , y d ) T , d < n \vec x=(x_1,x_2,\cdots,x_n)^T \stackrel{(J\to max)}{\longrightarrow}\vec y=h(\vec x)=(y_1,y_2,\cdots,y_d)^T,d<n x=(x1,x2,⋯,xn)T⟶(J→max)y=h(x)=(y1,y2,⋯,yd)T,d<n
主要方法有: 离散K-L变换法(DKLT) 等方法。
特征选择和特征选择
特征选择
一般根据 物理特征或结构特征 进行压缩;当”模式”在空间中发生移动、旋转、缩放时,特征值应保持不变,保证仍可得到同样的识别效果。
特征提取
一般用 数学方法 进行压缩。
特征选择和特征提取的区别
以对一个条形和圆形进行识别为例:
特征选择:测量这两个物体的结构特征(有a.周长;b.面积;c.两个互相垂直的内径比)。对着三个特征进行比较,发现只有 c 具有分类的能力,故选择特征 c,而弃掉 a,b;
特征提取:测量物体向两个坐标轴 x 1 , x 2 x_1,x_2 x1,x2 的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。
但将坐标系按逆时针方向做一旋转变化,或物体按顺时针方向变,并适当平移等。根据物体在 x 2 ′ x'_2 x2′ 轴上投影的坐标值的正负可区分两个物体。
可分性判据
为确立特征提取和选择的准则:引入类别可分性判据,来表征特征对分类的贡献。为此希望所构造的可分性判据 J 满足下列要求:
(1)可分性判据 J 与误判概率
P
(
e
)
P(e)
P(e) 具有单调关系, J 最大时,
P
(
e
)
P(e)
P(e) 最小;
(2)当特征相互独立时,判据具有可加性:
J
i
j
(
x
1
,
x
2
,
⋯
,
x
d
)
=
∑
k
=
1
d
J
i
j
(
x
k
)
\displaystyle J_{ij}(x_1,x_2,\cdots,x_d)=\sum^d_{k=1}J_{ij}(x_k)
Jij(x1,x2,⋯,xd)=k=1∑dJij(xk),式中
x
1
,
x
2
,
⋯
,
x
d
x_1,x_2,\cdots,x_d
x1,x2,⋯,xd 是对不同种类特征的测量值,
J
i
j
(
⋅
)
J_{ij}(\cdot)
Jij(⋅) 表示使用括号中的特征组合时的第 i 类与 第 j 类可分性判据函数;
(3)判据需具有某些 距离特性:
{
J
i
j
>
0
,
i
f
i
≠
j
J
i
j
=
0
,
i
f
i
=
j
\displaystyle \left\{ \begin{aligned} J_{ij}>0, & & {if\,\,i\not=j}\\ J_{ij}=0, & & {if\,\,i=j}\\ \end{aligned} \right.
{Jij>0,Jij=0,ifi=jifi=j ,且有
J
i
j
=
J
j
i
J_{ij}=J_{ji}
Jij=Jji;
(4)对特征数目是单调不减的,即加入新的特征后,判据值不减:
J
i
j
(
x
1
,
x
2
,
⋯
,
x
d
)
≤
J
i
j
(
x
1
,
x
2
,
⋯
,
x
d
,
x
d
+
1
)
\displaystyle J_{ij}(x_1,x_2,\cdots,x_d)\le\displaystyle J_{ij}(x_1,x_2,\cdots,x_d,x_{d+1})
Jij(x1,x2,⋯,xd)≤Jij(x1,x2,⋯,xd,xd+1).
实际应用中 J 可能不一定能够同时具备单调性、叠加性、距离性和单调不减性,但在实际使用依然有效。
而可分性判据主要有:
基于距离的可分性判度量
基于类的概率密度函数的可分性判据
基于后验概率的可分性判据
统计检验的可分性判据
更多推荐
所有评论(0)