2.2 错误率与贝叶斯决策

本文最后更新于：2025年10月21日晚上

最小错误率贝叶斯决策是统计决策的核心方法之一，其核心目标是在已知类先验概率和类条件概率密度的前提下，通过贝叶斯公式将先验概率转化为后验概率，选择后验概率最大的类别作为决策结果，从而使分类的总体错误率最小。

一、核心思想与理论基础

分类决策的本质是对样本所属类别进行概率判断：

若样本特征为 $x$ ，类别空间为 $\{\omega_1, \omega_2, \dots, \omega_c\}$ （ $c$ 为类别数），需比较样本属于各类别的后验概率 $P(\omega_i | x)$ ；
后验概率反映"已知特征 $x$ 时，样本属于 $\omega_i$ 类"的置信度，由先验概率 $P(\omega_i)$ （类别 $\omega_i$ 在总体中出现的概率）和类条件概率密度 $p(x | \omega_i)$ （类别 $\omega_i$ 中特征 $x$ 的分布密度）通过贝叶斯公式推导得出。

二、关键公式与推导

1. 贝叶斯公式：先验概率与后验概率的转换

根据概率论中的贝叶斯公式，后验概率 $P(\omega_i | x)$ 的计算公式为：

$P(\omega_i | x) = \frac{p(x | \omega_i) P(\omega_i)}{p(x)} \quad (i=1,2,\dots,c) \tag{2-9}$

其中：

分母 $p(x)$ 为总体密度，是所有类别特征 $x$ 的混合密度，满足：
$p(x) = \sum_{j=1}^c p(x | \omega_j) P(\omega_j)$
其作用是对后验概率进行归一化，确保所有类别后验概率之和为1（即 $\sum_{i=1}^c P(\omega_i | x) = 1$ ）。

2. 最小错误率决策规则

由于分母 $p(x)$ 对所有类别 $\omega_i$ 相同，比较后验概率 $P(\omega_i | x)$ 的大小等价于比较分子 $p(x | \omega_i) P(\omega_i)$ 的大小。因此，最小错误率贝叶斯决策规则可表示为以下3种等价形式：

（1）后验概率最大准则

若某类别 $\omega_k$ 的后验概率大于其他所有类别，则将样本归为 $\omega_k$ ：

$\text{若 } P(\omega_k | x) = \max_{j=1,2,\dots,c} P(\omega_j | x) \implies x \in \omega_k \tag{2-10}$

（2）联合概率最大准则

直接比较 $p(x | \omega_i) P(\omega_i)$ （类条件概率密度与先验概率的乘积，即联合概率密度的核心部分）：

$\text{若 } p(x | \omega_k) P(\omega_k) = \max_{j=1,2,\dots,c} p(x | \omega_j) P(\omega_j) \implies x \in \omega_k \tag{2-11}$

（3）似然比准则（两类问题专用）

对于两类问题（ $c=2$ ），定义似然比 $l(x) = \frac{p(x | \omega_1)}{p(x | \omega_2)}$ （反映特征 $x$ 属于 $\omega_1$ 与 $\omega_2$ 的似然度比值），决策规则可转化为与阈值 $\lambda = \frac{P(\omega_2)}{P(\omega_1)}$ 比较：

$\text{若 } l(x) \gtrless \lambda \implies x \in \begin{cases} \omega_1 \\ \omega_2 \end{cases} \tag{2-12}$

当 $l(x) > \lambda$ 时， $P(\omega_1 | x) > P(\omega_2 | x)$ ，决策为 $\omega_1$ ；
当 $l(x) < \lambda$ 时，决策为 $\omega_2$ 。

（4）对数似然比准则（数值计算优化）

为避免乘积运算溢出，对似然比取负对数（负对数为单调递减函数，不改变决策结果），定义对数似然比 $h(x) = -\ln l(x)$ ，决策规则变为：

$\text{若 } h(x) \leq \ln \frac{P(\omega_1)}{P(\omega_2)} \implies x \in \begin{cases} \omega_1 \\ \omega_2 \end{cases} \tag{2-13}$

三、错误率的定义与计算

1. 错误率的本质

错误率 $P(e)$ 是所有样本分类错误的概率期望，反映分类器的总体性能。对于两类问题，错误率由两部分组成：

$P_1(e)$ ：将 $\omega_1$ 类样本误判为 $\omega_2$ 的概率；
$P_2(e)$ ：将 $\omega_2$ 类样本误判为 $\omega_1$ 的概率。

2. 错误率计算公式

两类问题的平均错误率为：

$P(e) = P(\omega_1) P_1(e) + P(\omega_2) P_2(e) \tag{2-15}$

其中：

$P_1(e) = \int_{\Re_2} p(x | \omega_1) dx$ （ $\Re_2$ 为 $\omega_2$ 类的决策区域，即 $\omega_1$ 类样本落入 $\Re_2$ 的概率）；
$P_2(e) = \int_{\Re_1} p(x | \omega_2) dx$ （ $\Re_1$ 为 $\omega_1$ 类的决策区域）。

决策区域 $\Re_1$ 与 $\Re_2$ 由决策边界划分，满足 $P(\omega_1 | x) = P(\omega_2 | x)$ （或 $p(x | \omega_1) P(\omega_1) = p(x | \omega_2) P(\omega_2)$ ）。

四、多类问题的扩展

当类别数 $c > 2$ 时，最小错误率贝叶斯决策规则保持一致：

对每个类别 $\omega_i$ ，计算后验概率 $P(\omega_i | x)$ （或 $p(x | \omega_i) P(\omega_i)$ ）；
选择后验概率最大的类别作为决策结果，数学表达为：

$\text{若 } P(\omega_k | x) = \max_{j=1,2,\dots,c} P(\omega_j | x) \implies x \in \omega_k \tag{2-17a}$

或等价地：

$\text{若 } p(x | \omega_k) P(\omega_k) = \max_{j=1,2,\dots,c} p(x | \omega_j) P(\omega_j) \implies x \in \omega_k \tag{2-17b}$

多类问题的决策边界为相邻两类决策区域的分界面，满足 $P(\omega_i | x) = P(\omega_j | x)$ （ $i \neq j$ ）。

五、核心总结

核心概念	数学表达/规则	作用
贝叶斯公式	$P(\omega_i \mid x) = \frac{p(x \mid \omega_i) P(\omega_i)}{p(x)}$	连接先验概率与后验概率，为决策提供依据
最小错误率决策规则（两类）	1. $P(\omega_1 \mid x) > P(\omega_2 \mid x) \implies x \in \omega_1$ ； 2. $p(x \mid \omega_1) P(\omega_1) > p(x \mid \omega_2) P(\omega_2) \implies x \in \omega_1$ ； 3. $l(x) > \lambda \implies x \in \omega_1$	确保单次决策错误率最小
平均错误率（两类）	$P(e) = P(\omega_1) \int_{\Re_2} p(x \mid \omega_1) dx + P(\omega_2) \int_{\Re_1} p(x \mid \omega_2) dx$	衡量分类器总体性能

最小错误率贝叶斯决策的前提是已知 $P(\omega_i)$ 和 $p(x | \omega_i)$ ，若这两个参数未知，则需通过样本估计（见第3章概率密度估计）。

模式识别与机器学习 > 第二章统计决策方法

#模式识别 #机器学习 #贝叶斯决策

2.2 错误率与贝叶斯决策

https://hellowydwyd.github.io/2025/10/21/2-2-错误率与贝叶斯决策/

作者

YuDong Wang

发布于

2025年10月21日

许可协议

2.3 最小风险贝叶斯决策上一篇

2.1 引言：一个简单的例子下一篇