1.2 模式识别的主要方法

本文最后更新于:2025年10月21日 下午

一、基于知识的方法

(一)核心原理

该方法以人类对研究对象的先验知识为基础,通过"分解-符号化-句法分析"的逻辑实现分类,具体流程为:

  1. 对象分解与符号化:将待识别对象拆解为多个基本单元(如汉字的笔画、复杂图像的局部特征),并将每个基本单元用特定符号表示(如用"横""竖"等符号表示汉字笔画)。

  2. 句法关系构建:描述基本单元之间的结构关系(如汉字中"横"与"竖"的连接顺序、位置关系),形成单元符号间的句法规则。

  3. 句法分析分类:利用形式语言(如上下文无关文法)和句法分析算法(如自上而下句法分析、自下而上句法分析),根据句法规则判断样本是否符合某类对象的结构特征,进而完成分类。

(二)典型实例

复杂结构汉字识别为例:

  • 先将汉字图像分解为"横、竖、撇、捺"等基本笔画单元,提取笔画的起始点、转折点、终点等特征点并编码为数字符号;

  • 结合汉字结构知识(如"左右结构""上下结构"、旋转与尺度不变性),构建笔画间的句法关系(如"'木'字由'横、竖、撇、捺'按'横在上、竖居中、撇捺在下'的顺序组成");

  • 通过句法分析判断待识别汉字的笔画组合是否符合某一已知汉字的句法规则,实现识别。

(三)局限性

该方法高度依赖人类对研究对象的充分认知:若对对象的结构、单元关系等缺乏深入了解(如复杂疾病的病理机制、未知天体的特征规律),则无法构建有效的句法规则,导致方法难以应用。

二、基于数据的方法

(一)核心原理与流程

该方法不依赖先验知识,完全以数据为驱动,通过"特征确定-训练集构建-模型训练-分类预测"的流程实现识别,是模式识别的主流方法,具体逻辑如下:

  1. 特征确定:选取能反映对象类别差异的特征(如语音识别中的频率、振幅特征,图像识别中的像素分布、边缘特征),将样本表示为特征向量xx

  2. 训练集构建:收集大量类别已知的样本,组成训练集$${(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)}$$,其中yy为样本的类别标号。

  3. 模型训练(学习过程):利用训练集训练"学习机器(LM)",本质是构建从特征向量xx到类别yy'的映射函数$$y'=f(x)$$(即分类器),目标是让分类器对训练样本的分类误差最小。

  4. 分类预测:将未知样本的特征向量输入训练好的分类器,由分类器输出样本的预测类别。

(二)与机器学习的关系

基于数据的模式识别可看作基于数据的机器学习的特殊情况

  • 机器学习的目标包括离散分类、连续值预测(如回归)等,而基于数据的模式识别专注于"离散分类"这一目标,是机器学习中研究最广泛、最核心的方向之一。

(三)典型实例

语音识别为例:

  • 特征确定:将语音信号按25ms/帧、10ms间隔分割,提取每帧的梅尔频率倒谱系数(MFCC)作为特征向量xx

  • 训练集构建:收集大量已知内容的语音信号(如"你好""谢谢"等),标注每段语音对应的文本类别yy,组成训练集;

  • 模型训练:用训练集训练基于隐马尔可夫模型(HMM)或深度学习的分类器,学习"语音特征-文本类别"的映射关系;

  • 分类预测:将未知语音信号的特征向量输入分类器,输出语音对应的文本内容,实现识别。

三、两类方法的对比与基于数据的方法的核心地位

(一)关键差异对比

对比维度 基于知识的方法 基于数据的方法
依赖条件 人类对对象的先验知识(需充分认知) 类别已知的训练数据(无需先验知识)
适用场景 对象结构清晰、规则可明确描述的场景(如简单汉字识别) 对象机理复杂、规则难描述的场景(如语音识别、疾病诊断)
核心逻辑 符号化与句法分析 数据驱动的分类器学习
局限性 知识不足时无法应用 需足够多高质量训练数据

(二)基于数据的方法的核心地位

  1. 主流性:在无特别说明时,"模式识别"通常特指基于数据的方法,因其能应对大多数实际场景中"知识不足但数据可获取"的情况。

  2. 适用范围:适用于"已知特征与类别相关,但无法确切描述关系"的场景,这种"不确定性"的来源包括:

    • 对对象机理研究不足(如新型疾病的致病基因与疾病类型的关系);

    • 问题本身的随机性(如金融市场中"股价特征-涨跌类别"的关系);

    • 样本异质性(如不同人说话的口音差异);

    • 观测数据不准确(如传感器噪声导致的图像失真)。

  3. 边界条件

    • 若"特征-类别"关系可完全确切描述(如简单几何图形的分类),基于知识的方法更高效;

    • 若"特征-类别"关系完全随机(无规律性),则两类方法均无法得到有意义的结果。

四、基于数据的方法与其他学科的关联

(一)与统计学的关联

  1. 基础支撑:基于数据的模式识别的核心是统计模式识别,即依据统计学原理(如概率分布、贝叶斯公式)建立分类器,这是模式识别学科最初的主要内容(如基于正态分布的贝叶斯分类器)。

  2. 方法融合:即使是非统计起源的方法(如人工神经网络),其本质也与统计学密切相关——例如,神经网络的权重学习可通过最大似然估计、贝叶斯推断等统计学思想解释,目前主流研究也常采用统计学视角分析神经网络的泛化能力。

(二)学科发展脉络的意义

模式识别方法的发展是多学科思想融合的过程:

  • 20世纪30年代诞生线性判别函数(统计起源);

  • 20世纪80年代人工神经网络兴起(神经科学启发);

  • 20世纪90年代支持向量机与统计学习理论发展(统计学与泛函分析结合);

  • 21世纪10年代后深度学习爆发(神经网络与大数据、计算能力结合)。

了解这些脉络有助于深刻理解方法的核心思想(如支持向量机的"最大间隔"思想源于统计学习理论),并把握学科未来发展方向(如方法间的融合趋势)。


1.2 模式识别的主要方法
https://hellowydwyd.github.io/2025/10/21/1.2 模式识别的主要方法/
作者
YuDong Wang
发布于
2025年10月21日
许可协议