1.3 监督模式识别与非监督模式识别
本文最后更新于:2025年10月21日 下午
监督模式识别与非监督模式识别是模式识别领域的两大核心分支,二者的核心差异在于是否依赖“类别已知的训练样本”作为学习“导师”,在问题设定、学习目标、方法特点及结果解读上均存在显著区别,具体如下:
一、监督模式识别(Supervised Pattern Recognition)
1. 核心定义与前提假设
- 定义:在已知“待划分类别”且能获取“类别已知的训练样本”的前提下,以训练样本作为“导师”,建立分类模型(分类器),实现对未知样本类别的预测。
- 关键前提:
- 明确知道要划分的类别数量及类别含义;
- 拥有足够数量的“特征-类别”对应训练样本(即每个样本的特征向量与所属类别标签已知)。
2. 典型应用场景
- 图像分类(如区分“猫/狗/汽车”,需先提供大量标注好类别的图像作为训练集);
- 疾病诊断(如根据“患者特征-疾病标签”训练模型,预测新患者是否患病);
- 手写数字识别(如MNIST数据集,每个手写数字图像均标注对应的0-9类别)。
3. 核心流程
- 数据准备:收集类别已知的样本,构建训练集(含特征向量与类别标签);
- 特征处理:对样本特征进行提取、选择或预处理(如去噪、归一化);
- 模型训练:用训练集训练分类器(如贝叶斯分类器、支持向量机、神经网络等);
- 分类决策:用训练好的分类器对未知样本的特征向量进行类别预测。
4. 特点
- 目标明确:直接学习“特征→类别”的映射关系,分类结果具有明确的预设类别含义;
- 依赖标注样本:标注样本的质量(准确性、代表性)和数量直接影响分类器性能;
- 结果确定性:对同一未知样本,在相同模型下分类结果唯一(排除随机化模型)。
二、非监督模式识别(Unsupervised Pattern Recognition)
1. 核心定义与前提假设
- 定义:在“未知待划分类别”“无类别已知训练样本”(甚至未知类别数量)的前提下,仅根据样本特征的“相似性”或“内在结构”,将样本自动聚为若干类(称为“聚类”),使同类样本相似性高、异类样本相似性低。
- 关键前提:
- 无需知道类别数量及类别含义;
- 仅拥有无类别标签的样本特征向量,通过数据自身规律发现类别。
2. 典型应用场景
- 客户分群(如根据用户消费行为特征,将客户自动分为“高消费/中等消费/低消费”群体,无需预先定义群体标签);
- 基因表达数据分析(如根据基因表达水平,将细胞自动聚为不同类型,探索未知细胞亚型);
- 异常检测(如通过正常数据的聚类结构,识别偏离聚类的“异常样本”,如信用卡欺诈交易检测)。
3. 核心流程
- 数据准备:收集无类别标签的样本,构建待分析样本集;
- 特征处理:对样本特征进行预处理(如降维、标准化),突出样本间的差异或相似性;
- 聚类分析:选择聚类算法(如K均值、层次聚类、模糊聚类等),对样本进行自动分组;
- 结果解释:结合领域知识分析聚类结果的实际意义(如“聚类1对应年轻高消费客户”),验证聚类合理性。
4. 特点
- 目标是“发现类别”:不预设类别,从数据中挖掘内在结构,属于“探索性分析”;
- 无需标注样本:适用于标注成本高或类别未知的场景(如生物领域新物种分类、工业异常检测);
- 结果非唯一性:
- 同一数据集采用不同聚类算法(如K均值vs层次聚类)或不同参数(如K均值的K值选择),可能得到不同聚类结果;
- 聚类结果的“合理性”需结合领域知识判断(如客户分群结果需业务人员验证是否符合实际客户特征)。
三、监督与非监督模式识别的核心差异对比
| 对比维度 | 监督模式识别 | 非监督模式识别 |
|---|---|---|
| 样本需求 | 需类别已知的训练样本(带标签) | 仅需无类别标签的样本(无标签) |
| 类别信息 | 已知类别数量及含义 | 未知类别数量及含义,需从数据中发现 |
| 学习目标 | 学习“特征→类别”的映射,用于预测未知样本 | 发现样本内在结构,实现“相似样本聚为一类” |
| 结果特点 | 结果唯一,对应预设类别 | 结果非唯一,需领域知识解释合理性 |
| 典型算法 | 贝叶斯分类器、SVM、神经网络、决策树 | K均值、层次聚类、DBSCAN、自组织映射 |
| 适用场景 | 预测性任务(如疾病诊断、图像分类) | 探索性任务(如客户分群、异常检测) |
四、补充说明
- 术语对应:国内部分文献中,监督学习也称为“有导师学习”,非监督学习也称为“无导师学习”,本质与本文定义一致。
- 非监督学习的扩展:除聚类外,非监督学习还包括“发现数据内在结构”的任务,如高维数据降维(如PCA、t-SNE)、发现数据间的关联关系等,核心均是“无标签下挖掘数据规律”。
- 二者结合:实际应用中常结合两种方法,例如:先用非监督聚类发现潜在类别,再用聚类结果作为“伪标签”训练监督分类器(半监督学习);或用监督学习验证非监督聚类的合理性(如用已知类别标签评估聚类纯度)。
1.3 监督模式识别与非监督模式识别
https://hellowydwyd.github.io/2025/10/21/1-3-监督模式识别与非监督模式识别/