1.3 监督模式识别与非监督模式识别

本文最后更新于:2025年10月21日 下午

监督模式识别与非监督模式识别是模式识别领域的两大核心分支,二者的核心差异在于是否依赖“类别已知的训练样本”作为学习“导师”,在问题设定、学习目标、方法特点及结果解读上均存在显著区别,具体如下:

一、监督模式识别(Supervised Pattern Recognition)

1. 核心定义与前提假设

  • 定义:在已知“待划分类别”且能获取“类别已知的训练样本”的前提下,以训练样本作为“导师”,建立分类模型(分类器),实现对未知样本类别的预测。
  • 关键前提
    • 明确知道要划分的类别数量及类别含义;
    • 拥有足够数量的“特征-类别”对应训练样本(即每个样本的特征向量与所属类别标签已知)。

2. 典型应用场景

  • 图像分类(如区分“猫/狗/汽车”,需先提供大量标注好类别的图像作为训练集);
  • 疾病诊断(如根据“患者特征-疾病标签”训练模型,预测新患者是否患病);
  • 手写数字识别(如MNIST数据集,每个手写数字图像均标注对应的0-9类别)。

3. 核心流程

  1. 数据准备:收集类别已知的样本,构建训练集(含特征向量与类别标签);
  2. 特征处理:对样本特征进行提取、选择或预处理(如去噪、归一化);
  3. 模型训练:用训练集训练分类器(如贝叶斯分类器、支持向量机、神经网络等);
  4. 分类决策:用训练好的分类器对未知样本的特征向量进行类别预测。

4. 特点

  • 目标明确:直接学习“特征→类别”的映射关系,分类结果具有明确的预设类别含义;
  • 依赖标注样本:标注样本的质量(准确性、代表性)和数量直接影响分类器性能;
  • 结果确定性:对同一未知样本,在相同模型下分类结果唯一(排除随机化模型)。

二、非监督模式识别(Unsupervised Pattern Recognition)

1. 核心定义与前提假设

  • 定义:在“未知待划分类别”“无类别已知训练样本”(甚至未知类别数量)的前提下,仅根据样本特征的“相似性”或“内在结构”,将样本自动聚为若干类(称为“聚类”),使同类样本相似性高、异类样本相似性低。
  • 关键前提
    • 无需知道类别数量及类别含义;
    • 仅拥有无类别标签的样本特征向量,通过数据自身规律发现类别。

2. 典型应用场景

  • 客户分群(如根据用户消费行为特征,将客户自动分为“高消费/中等消费/低消费”群体,无需预先定义群体标签);
  • 基因表达数据分析(如根据基因表达水平,将细胞自动聚为不同类型,探索未知细胞亚型);
  • 异常检测(如通过正常数据的聚类结构,识别偏离聚类的“异常样本”,如信用卡欺诈交易检测)。

3. 核心流程

  1. 数据准备:收集无类别标签的样本,构建待分析样本集;
  2. 特征处理:对样本特征进行预处理(如降维、标准化),突出样本间的差异或相似性;
  3. 聚类分析:选择聚类算法(如K均值、层次聚类、模糊聚类等),对样本进行自动分组;
  4. 结果解释:结合领域知识分析聚类结果的实际意义(如“聚类1对应年轻高消费客户”),验证聚类合理性。

4. 特点

  • 目标是“发现类别”:不预设类别,从数据中挖掘内在结构,属于“探索性分析”;
  • 无需标注样本:适用于标注成本高或类别未知的场景(如生物领域新物种分类、工业异常检测);
  • 结果非唯一性
    • 同一数据集采用不同聚类算法(如K均值vs层次聚类)或不同参数(如K均值的K值选择),可能得到不同聚类结果;
    • 聚类结果的“合理性”需结合领域知识判断(如客户分群结果需业务人员验证是否符合实际客户特征)。

三、监督与非监督模式识别的核心差异对比

对比维度 监督模式识别 非监督模式识别
样本需求 需类别已知的训练样本(带标签) 仅需无类别标签的样本(无标签)
类别信息 已知类别数量及含义 未知类别数量及含义,需从数据中发现
学习目标 学习“特征→类别”的映射,用于预测未知样本 发现样本内在结构,实现“相似样本聚为一类”
结果特点 结果唯一,对应预设类别 结果非唯一,需领域知识解释合理性
典型算法 贝叶斯分类器、SVM、神经网络、决策树 K均值、层次聚类、DBSCAN、自组织映射
适用场景 预测性任务(如疾病诊断、图像分类) 探索性任务(如客户分群、异常检测)

四、补充说明

  1. 术语对应:国内部分文献中,监督学习也称为“有导师学习”,非监督学习也称为“无导师学习”,本质与本文定义一致。
  2. 非监督学习的扩展:除聚类外,非监督学习还包括“发现数据内在结构”的任务,如高维数据降维(如PCA、t-SNE)、发现数据间的关联关系等,核心均是“无标签下挖掘数据规律”。
  3. 二者结合:实际应用中常结合两种方法,例如:先用非监督聚类发现潜在类别,再用聚类结果作为“伪标签”训练监督分类器(半监督学习);或用监督学习验证非监督聚类的合理性(如用已知类别标签评估聚类纯度)。

1.3 监督模式识别与非监督模式识别
https://hellowydwyd.github.io/2025/10/21/1-3-监督模式识别与非监督模式识别/
作者
YuDong Wang
发布于
2025年10月21日
许可协议