2.1 引言:一个简单的例子

本文最后更新于:2025年10月21日 晚上

分类本质是基于观测对样本所属类别进行决策的过程。本节通过“猜硬币”和“癌细胞识别”两个实例,引入贝叶斯决策的核心思想,明确先验概率、类条件密度、后验概率等关键概念及数学关系,为后续统计决策方法奠定基础。

一、猜硬币问题:贝叶斯决策的直观引入

假设待猜硬币仅可能属于两类:一角硬币(记为类别ω1\omega_1)、五角硬币(记为类别ω2\omega_2),核心是通过概率判断样本(硬币)所属类别,分“无观测”和“有观测(称重)”两种场景分析。

1. 无观测时的决策:基于先验概率

  • 问题背景:无任何硬币信息(如重量、尺寸),仅依据过往经验判断两类硬币出现的概率。
  • 先验概率定义:在未对样本(硬币)进行任何观测时,类别ωi\omega_i出现的概率,记为P(ωi)P(\omega_i)i=1,2i=1,2)。例如,若近期接触一角硬币的频率更高,可设P(ω1)>P(ω2)P(\omega_1) > P(\omega_2)
  • 决策规则(最小错误率准则)
    P(ω1)>P(ω2)P(\omega_1) > P(\omega_2),则决策硬币属于ω1\omega_1(一角);反之则属于ω2\omega_2(五角),数学表达为:

    若 P(ω1)>P(ω2)    xω1;否则 xω2(2-1)\text{若 } P(\omega_1) > P(\omega_2) \implies x \in \omega_1; \quad \text{否则 } x \in \omega_2 \tag{2-1}

  • 错误率分析:对两类问题,P(ω1)+P(ω2)=1P(\omega_1) + P(\omega_2) = 1。若决策xω1x \in \omega_1,错误率为P(error)=1P(ω1)=P(ω2)P(\text{error}) = 1 - P(\omega_1) = P(\omega_2);反之错误率为P(ω1)P(\omega_1)。式(2-1)的决策可使单次决策的错误率最小。

2. 有观测时的决策:基于后验概率

  • 问题扩展:允许用天平称量硬币重量xx,需结合重量信息优化决策,核心是计算“已知重量为xx时,硬币属于ωi\omega_i类”的概率(后验概率)。
  • 后验概率定义:给定样本特征xx(如硬币重量)时,样本属于类别ωi\omega_i的概率,记为P(ωix)P(\omega_i | x)
  • 贝叶斯公式:先验概率与后验概率的转换
    根据概率论中的贝叶斯公式,后验概率可通过先验概率P(ωi)P(\omega_i)和类条件密度p(xωi)p(x | \omega_i)(类别ωi\omega_i中特征xx的概率密度)计算:

    P(ωix)=p(x,ωi)p(x)=p(xωi)P(ωi)p(x)(i=1,2)(2-3)P(\omega_i | x) = \frac{p(x, \omega_i)}{p(x)} = \frac{p(x | \omega_i) P(\omega_i)}{p(x)} \quad (i=1,2) \tag{2-3}

    其中,p(x)p(x)为总体密度(所有类别特征xx的混合密度),满足p(x)=p(xω1)P(ω1)+p(xω2)P(ω2)p(x) = p(x | \omega_1) P(\omega_1) + p(x | \omega_2) P(\omega_2),仅起归一化作用。
  • 决策规则(最小错误率准则)
    比较两类后验概率,将样本归为后验概率更大的类别,数学表达为:

    若 P(ω1x)>P(ω2x)    xω1;否则 xω2(2-2)\text{若 } P(\omega_1 | x) > P(\omega_2 | x) \implies x \in \omega_1; \quad \text{否则 } x \in \omega_2 \tag{2-2}

    由于式(2-3)中分母p(x)p(x)对两类相同,决策时可仅比较分子,等价于:

    若 p(xω1)P(ω1)>p(xω2)P(ω2)    xω1;否则 xω2(2-4)\text{若 } p(x | \omega_1) P(\omega_1) > p(x | \omega_2) P(\omega_2) \implies x \in \omega_1; \quad \text{否则 } x \in \omega_2 \tag{2-4}

  • 关键参数说明
    • P(ωi)P(\omega_i):可通过统计市场流通硬币的比例估计(如一角硬币占比60%,则P(ω1)=0.6P(\omega_1) = 0.6);
    • p(xωi)p(x | \omega_i):可通过大量同类硬币的重量数据拟合(如一角硬币重量服从正态分布N(μ1,σ12)N(\mu_1, \sigma_1^2),五角硬币服从N(μ2,σ22)N(\mu_2, \sigma_2^2))。

二、癌细胞识别:贝叶斯决策的实际应用

以“正常细胞(ω1\omega_1)与异常细胞(ω2\omega_2)的分类”为例,说明贝叶斯决策在实际模式识别问题中的应用,简化为单特征(细胞核总光密度xx)分析。

1. 关键参数的获取

  • 先验概率P(ω1)P(\omega_1)P(ω2)P(\omega_2):通过医院病例统计数据估计,例如某地区正常细胞占比90%,则P(ω1)=0.9P(\omega_1) = 0.9P(ω2)=0.1P(\omega_2) = 0.1
  • 类条件密度p(xω1)p(x | \omega_1)p(xω2)p(x | \omega_2):通过历史细胞图像数据拟合,例如正常细胞光密度服从p(xω1)N(μ1,σ12)p(x | \omega_1) \sim N(\mu_1, \sigma_1^2),异常细胞服从p(xω2)N(μ2,σ22)p(x | \omega_2) \sim N(\mu_2, \sigma_2^2),其概率密度公式为:

    p(xωi)=12πσiexp((xμi)22σi2)(i=1,2)p(x | \omega_i) = \frac{1}{\sqrt{2\pi}\sigma_i} \exp\left(-\frac{(x - \mu_i)^2}{2\sigma_i^2}\right) \quad (i=1,2)

2. 决策边界与错误率计算

  • 决策边界定义:特征空间中划分两类决策区域的边界,满足P(ω1x)=P(ω2x)P(\omega_1 | x) = P(\omega_2 | x)(或p(xω1)P(ω1)=p(xω2)P(ω2)p(x | \omega_1) P(\omega_1) = p(x | \omega_2) P(\omega_2))。设边界点为tt,则特征空间被分为:
    • 决策区域1=(,t)\Re_1 = (-\infty, t):样本归为ω1\omega_1(正常细胞);
    • 决策区域2=(t,+)\Re_2 = (t, +\infty):样本归为ω2\omega_2(异常细胞)。
  • 平均错误率计算
    错误率由“正常细胞误判为异常”(P1(e)P_1(e))和“异常细胞误判为正常”(P2(e)P_2(e))两部分加权组成,权重为对应类别的先验概率:

    P(e)=P(ω1)P1(e)+P(ω2)P2(e)(2-15)P(e) = P(\omega_1) P_1(e) + P(\omega_2) P_2(e) \tag{2-15}

    其中:

    P1(e)=2p(xω1)dx,P2(e)=1p(xω2)dx(2-16a, 2-16b)P_1(e) = \int_{\Re_2} p(x | \omega_1) dx, \quad P_2(e) = \int_{\Re_1} p(x | \omega_2) dx \tag{2-16a, 2-16b}

    P1(e)P_1(e)表示ω1\omega_1类样本落入2\Re_2的概率(误判率),P2(e)P_2(e)同理。

三、核心概念总结

概念 定义与数学表达 作用
先验概率P(ωi)P(\omega_i) 未观测样本时,类别ωi\omega_i出现的概率,满足i=12P(ωi)=1\sum_{i=1}^2 P(\omega_i) = 1 无观测时的决策依据
类条件密度p(xωi)p(x \mid \omega_i) 类别ωi\omega_i中特征xx的概率密度,描述类别内特征的分布规律 结合观测特征,转换为先验概率与后验概率
后验概率P(ωix)P(\omega_i \mid x) 已知特征xx时,样本属于ωi\omega_i的概率,由贝叶斯公式P(ωix)=p(xωi)P(ωi)p(x)P(\omega_i \mid x) = \frac{p(x \mid \omega_i) P(\omega_i)}{p(x)}计算 有观测时的核心决策依据
贝叶斯决策规则 比较后验概率(或p(xωi)P(ωi)p(x \mid \omega_i) P(\omega_i)),将样本归为概率更大的类别 最小化单次决策的错误率

2.1 引言:一个简单的例子
https://hellowydwyd.github.io/2025/10/21/2-1-引言:一个简单的例子/
作者
YuDong Wang
发布于
2025年10月21日
许可协议