广义地说,在时间和空间中存在的可观察的事物,若可区别它们之间是否相同或者相似的信息,皆可称之为模式。模式所指的并非事物本身,而是从事物中获取的信息。因而,模式通常反映为具有时间或空间分布的信息。而识别出特定客体所模仿的标本就是模式识别。狭义地说,模式是通过观测具体的个别事物而获取的具有时间和空间分布的信息。拥有某些共同特性的模式的集合称为模式类。模式识别就是对一些自动技术进行研究,借助这些技术,计算机可以自动地(或者靠人进行少量干涉)将待识别的模式划分到其所属的模式类中。
由前述可知,可通过定量描述和结构性描述两种方法来描述模式。定量描述的方法是通过一组数据来描述模式。结构性描述的方法是用一组基元描述模式。相对于两种模式的描述方法,有统计模式识别方法和结构(句法)模式识别两种模式识别的方法。在统计模式识别方法中,用特征参数把每个样本表示成多维空间中的一个点,按照“物以类聚”的道理,同类或相似的“样本”之间的距离应比较近,不同类“样本”之间的距离应较远。据此,我们就可以依据各个点之间的距离或距离的函数进行判别、分类,并根据分类结果来预测未知;结构模式识别是用符号串(树)来描述模式,它以模式的结构信息为分析对象的识别技术。
模式识别系统的组成主要包括由五个部分:即信息获取、预处理、特征抽取、分类器设计和分类器,具体如图所示。

为使计算机对客体能分类识别,需要用计算机能接受的形式表示客体,通过测量、采样和量化,能够用矩阵或向量表示一维波形或二维图象,这就是信息获取过程。
②预处理
预处理的目的是去除噪声,增强有用信息,并对各种因素导致的退化现象进行复原。常用多维空间的点来表示样本的特征参量,用矢量表示为:
x=(x1,x2,...xn)}
③特征抽取
从信息获取部分得到的原始数据量往往非常大。为能有效实现分类识别,需要通过对原始数据进行选择或变换,获取最能代表分类本质的特征,形成特征向量,这个过程就是特征抽取。特征提取的过程在实际应用中通常包括:先测试一组直观上合理的特征,然后将其减少至数目合适的最佳集。一般情况下,不太容易建立起符合上述要求的理想特征。
④分类器设计
为把待识别模式归并到各自的模式类中去,需要设计一组分类判别规则。
其基本作法为:应用一定量的样本作为训练样本集,确定出一组分类判别规则,使得根据这组分类判别规则对待识别模式进行分类而造成的错误识别率最小或引起的损失最小。
⑤分类器
分类器根据已经确定的分类判别规则来分类识别待识别模式,输出分类结果。