特征选择和提取的基本任务是如何从许多特征中找出那些最有效的特征。研究如何把高维特征空间压缩到低维特征空间以便有效设计分类器就成为一个重要的课题。任何识别过程的第一步,不论是用计算机还是由人去识别,都要首先分析各种特征的有效性并选出最有代表性的特征。
一般特征选择从两个方面着手,一方面是对单个特征进行评价和选择,另一方面就是从大量的原有特征出发,通过降维映射的方法,构造成少数的新特征。己经证明,如果我们依次挑选出前M个最有效的单个特征,那么这M个特征放在一起却不一定是系统模式识别的M个特征的最佳组合。
为了考察某些特征对于系统模式识别的重要性,可以从系统识别特征中去掉一些特征,再来考察没有了该特征,分类会怎样变化。如果去掉某些基本特征不影响我们的分类和模式识别,则这些基本特征就是冗余知识,可以去掉它;如果去掉某些基本特征将严重影响我们的分类和模式识别,则这些基本特征就是模式识别的有用特征,仅由这些有用特征表达的模式就是一种简化的知识表达。特征形成:根据被识别对象产生出一组基本特征,它可以是计算出来的(当被识别对象是波形或数字图像时),也可以是用仪表或传感器测量出来的(当识别对象是实物或某种过程时),由此产生出来的特征叫做原始特征。
特征抽取的目的是获取一组“少而精”的分类特征,即获取特征数目少且分类错误概率小的特征向量。
特征抽取常常分几步进行:
第一步:特征形成根据被识别的对象产生一组原始特征。可以是传感器的直接测量值,也可以是将传感器的测量值作某些计算后得到的值。
第二步:特征选择由特征形成过程得到的原始特征可能很多,如果把所有的原始特征都作为分类特征送往分类器,不仅使得分类器复杂,分类计算判别量大,而且分类器错误概率也不一定小。因此需要减少特征数目。减少特征数目的方法有两种,一种是特征选择,另一种是特征提取。从一组特征中挑选一些最有效的特征的过程叫特征选择。
第三步:特征提取特征提取是另一种减少特征数目的方法。通过映射(或变换)的方法把高维的特征向量变换为低维的特征向量。特征形成得到原始特征后,可以只作特征选择,也可以只作特征提取,当然也可以先进行特征选择再作特征提取,可视具体情况而定。
特征提取和选择并不是截然分开的。如可以先将原始特征空间映射到维数较低的空间,由这个空间中再进行选择以进一步降低维数。也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。
特征选择与提取的任务是求出一组对分类最有效的特征,因此需要一个定量的准则(或称判据)来衡量特征对分类的有效性。具体地说,把一个高维空间变换为低维空间的映射是很多的,哪种映射对分类最有利,需要一个比较标准。从D个原始特征中选择出d个特征和各种可能组合也是很多的,哪种组合的分类效果最好,也要有一个比较标准。目前己有的判别标准有类别可分性准则、基于嫡函数的可分性准则、基于概率分布的可分性准则等。前两种准则是直接从各类样本间的距离算出的,没有考虑各类的概率分布,不能确切表明各类交叠的情况,因此与错误概率没有直接联系。常用的概率距离度量有:Bhattacharyya距离和散度。