本文最后更新于:2025年10月21日 晚上
分类本质是基于观测对样本所属类别进行决策的过程。本节通过“猜硬币”和“癌细胞识别”两个实例,引入贝叶斯决策的核心思想,明确先验概率、类条件密度、后验概率等关键概念及数学关系,为后续统计决策方法奠定基础。
一、猜硬币问题:贝叶斯决策的直观引入
假设待猜硬币仅可能属于两类:一角硬币(记为类别ω1)、五角硬币(记为类别ω2),核心是通过概率判断样本(硬币)所属类别,分“无观测”和“有观测(称重)”两种场景分析。
1. 无观测时的决策:基于先验概率
2. 有观测时的决策:基于后验概率
- 问题扩展:允许用天平称量硬币重量x,需结合重量信息优化决策,核心是计算“已知重量为x时,硬币属于ωi类”的概率(后验概率)。
- 后验概率定义:给定样本特征x(如硬币重量)时,样本属于类别ωi的概率,记为P(ωi∣x)。
- 贝叶斯公式:先验概率与后验概率的转换:
根据概率论中的贝叶斯公式,后验概率可通过先验概率P(ωi)和类条件密度p(x∣ωi)(类别ωi中特征x的概率密度)计算:P(ωi∣x)=p(x)p(x,ωi)=p(x)p(x∣ωi)P(ωi)(i=1,2)(2-3)
其中,p(x)为总体密度(所有类别特征x的混合密度),满足p(x)=p(x∣ω1)P(ω1)+p(x∣ω2)P(ω2),仅起归一化作用。
- 决策规则(最小错误率准则):
比较两类后验概率,将样本归为后验概率更大的类别,数学表达为:若 P(ω1∣x)>P(ω2∣x)⟹x∈ω1;否则 x∈ω2(2-2)
由于式(2-3)中分母p(x)对两类相同,决策时可仅比较分子,等价于:若 p(x∣ω1)P(ω1)>p(x∣ω2)P(ω2)⟹x∈ω1;否则 x∈ω2(2-4)
- 关键参数说明:
- P(ωi):可通过统计市场流通硬币的比例估计(如一角硬币占比60%,则P(ω1)=0.6);
- p(x∣ωi):可通过大量同类硬币的重量数据拟合(如一角硬币重量服从正态分布N(μ1,σ12),五角硬币服从N(μ2,σ22))。
二、癌细胞识别:贝叶斯决策的实际应用
以“正常细胞(ω1)与异常细胞(ω2)的分类”为例,说明贝叶斯决策在实际模式识别问题中的应用,简化为单特征(细胞核总光密度x)分析。
1. 关键参数的获取
- 先验概率P(ω1)与P(ω2):通过医院病例统计数据估计,例如某地区正常细胞占比90%,则P(ω1)=0.9,P(ω2)=0.1。
- 类条件密度p(x∣ω1)与p(x∣ω2):通过历史细胞图像数据拟合,例如正常细胞光密度服从p(x∣ω1)∼N(μ1,σ12),异常细胞服从p(x∣ω2)∼N(μ2,σ22),其概率密度公式为:
p(x∣ωi)=2πσi1exp(−2σi2(x−μi)2)(i=1,2)
2. 决策边界与错误率计算
- 决策边界定义:特征空间中划分两类决策区域的边界,满足P(ω1∣x)=P(ω2∣x)(或p(x∣ω1)P(ω1)=p(x∣ω2)P(ω2))。设边界点为t,则特征空间被分为:
- 决策区域ℜ1=(−∞,t):样本归为ω1(正常细胞);
- 决策区域ℜ2=(t,+∞):样本归为ω2(异常细胞)。
- 平均错误率计算:
错误率由“正常细胞误判为异常”(P1(e))和“异常细胞误判为正常”(P2(e))两部分加权组成,权重为对应类别的先验概率:P(e)=P(ω1)P1(e)+P(ω2)P2(e)(2-15)
其中:P1(e)=∫ℜ2p(x∣ω1)dx,P2(e)=∫ℜ1p(x∣ω2)dx(2-16a, 2-16b)
P1(e)表示ω1类样本落入ℜ2的概率(误判率),P2(e)同理。
三、核心概念总结
| 概念 |
定义与数学表达 |
作用 |
| 先验概率P(ωi) |
未观测样本时,类别ωi出现的概率,满足∑i=12P(ωi)=1 |
无观测时的决策依据 |
| 类条件密度p(x∣ωi) |
类别ωi中特征x的概率密度,描述类别内特征的分布规律 |
结合观测特征,转换为先验概率与后验概率 |
| 后验概率P(ωi∣x) |
已知特征x时,样本属于ωi的概率,由贝叶斯公式P(ωi∣x)=p(x)p(x∣ωi)P(ωi)计算 |
有观测时的核心决策依据 |
| 贝叶斯决策规则 |
比较后验概率(或p(x∣ωi)P(ωi)),将样本归为概率更大的类别 |
最小化单次决策的错误率 |