2.3 最小风险贝叶斯决策

本文最后更新于：2025年10月21日晚上

最小风险贝叶斯决策的核心是考虑分类错误带来的损失差异，在贝叶斯决策框架下追求"期望风险最小"，而非单纯的"错误率最小"，是最小错误率贝叶斯决策的扩展（后者可视为前者的特例）。

一、核心概念与符号约定

1. 基本要素定义

样本： $x \in \mathbb{R}^d$ （ $d$ 维特征向量）
状态空间： $\Omega = \{\omega_1, \omega_2, \dots, \omega_c\}$ （ $c$ 个类别，即 $c$ 种自然状态）
决策空间： $\Delta = \{\alpha_1, \alpha_2, \dots, \alpha_k\}$ （ $k$ 种可能决策， $k$ 可不等于 $c$ ，如含"拒绝决策"）
损失函数： $\lambda(\alpha_i, \omega_j)$ （对真实状态为 $\omega_j$ 的样本采取决策 $\alpha_i$ 时的损失）

2. 决策表示例（损失函数 $\lambda(\alpha_i, \omega_j)$ 的一般决策表）

决策\状态	$\omega_1$	$\omega_2$	$\dots$	$\omega_j$	$\dots$	$\omega_c$
$\alpha_1$	$\lambda(\alpha_1, \omega_1)$	$\lambda(\alpha_1, \omega_2)$	$\dots$	$\lambda(\alpha_1, \omega_j)$	$\dots$	$\lambda(\alpha_1, \omega_c)$
$\alpha_2$	$\lambda(\alpha_2, \omega_1)$	$\lambda(\alpha_2, \omega_2)$	$\dots$	$\lambda(\alpha_2, \omega_j)$	$\dots$	$\lambda(\alpha_2, \omega_c)$
$\vdots$	$\vdots$	$\vdots$	$\ddots$	$\vdots$	$\ddots$	$\vdots$
$\alpha_i$	$\lambda(\alpha_i, \omega_1)$	$\lambda(\alpha_i, \omega_2)$	$\dots$	$\lambda(\alpha_i, \omega_j)$	$\dots$	$\lambda(\alpha_i, \omega_c)$
$\vdots$	$\vdots$	$\vdots$	$\dots$	$\vdots$	$\ddots$	$\vdots$
$\alpha_k$	$\lambda(\alpha_k, \omega_1)$	$\lambda(\alpha_k, \omega_2)$	$\dots$	$\lambda(\alpha_k, \omega_j)$	$\dots$	$\lambda(\alpha_k, \omega_c)$

通常约定：正确决策损失最小（如 $\lambda(\alpha_i, \omega_i) = 0$ ），错误决策损失更大（如 $\lambda(\alpha_i, \omega_j) > 0$ ， $i \neq j$ ）。

二、核心公式推导

1. 条件风险（给定样本 $x$ 时的期望损失）

对样本 $x$ ，已知其属于各类的后验概率 $P(\omega_j | x)$ （由贝叶斯公式 $P(\omega_j | x) = \frac{p(x | \omega_j)P(\omega_j)}{p(x)}$ 计算），采取决策 $\alpha_i$ 的条件风险定义为：

$R(\alpha_i | x) = \sum_{j=1}^c \lambda(\alpha_i, \omega_j) P(\omega_j | x) \tag{2-26}$

含义：在样本 $x$ 的特征信息下，采取决策 $\alpha_i$ 时，所有可能自然状态（类别）对应的损失加权和（权重为后验概率）。

2. 期望风险（全局平均风险）

对所有可能样本 $x$ ，条件风险的加权平均（权重为样本 $x$ 的概率密度 $p(x)$ ），即期望风险：

$R = \int_{\mathbb{R}^d} R(\alpha(x) | x) p(x) dx \tag{2-28}$

含义：全局范围内采取决策规则 $\alpha(x)$ （对不同 $x$ 选择不同 $\alpha_i$ ）的平均损失，是衡量决策性能的全局指标。

3. 最小风险决策规则

要使期望风险 $R$ 最小，需对每个样本 $x$ 单独最小化其条件风险（因 $p(x) \geq 0$ ，全局积分最小等价于逐点最小），即：

$\alpha^* = \arg\min_{i=1,2,\dots,k} R(\alpha_i | x) \tag{2-27}$

含义：对每个样本 $x$ ，选择条件风险最小的决策 $\alpha^*$ ，该决策即为当前样本的最优决策。

三、两类问题的简化形式（无拒绝决策）

当问题为两类（ $\omega_1, \omega_2$ ）且决策仅为"判为 $\omega_1$ "（ $\alpha_1$ ）或"判为 $\omega_2$ "（ $\alpha_2$ ）时，公式可简化：

1. 关键损失约定

$\lambda_{11} = \lambda(\alpha_1, \omega_1)$ （正确决策： $\omega_1$ 判为 $\omega_1$ 的损失）
$\lambda_{12} = \lambda(\alpha_1, \omega_2)$ （错误决策： $\omega_2$ 判为 $\omega_1$ 的损失）
$\lambda_{21} = \lambda(\alpha_2, \omega_1)$ （错误决策： $\omega_1$ 判为 $\omega_2$ 的损失）
$\lambda_{22} = \lambda(\alpha_2, \omega_2)$ （正确决策： $\omega_2$ 判为 $\omega_2$ 的损失）

通常取 $\lambda_{11} = \lambda_{22} = 0$ ，且 $\lambda_{12} > 0$ 、 $\lambda_{21} > 0$ 。

2. 条件风险简化

决策 $\alpha_1$ （判为 $\omega_1$ ）的条件风险：
$R(\alpha_1 | x) = \lambda_{12} P(\omega_2 | x) \tag{2-28a}$
决策 $\alpha_2$ （判为 $\omega_2$ ）的条件风险：
$R(\alpha_2 | x) = \lambda_{21} P(\omega_1 | x) \tag{2-28b}$

3. 两类问题的决策规则

比较 $R(\alpha_1 | x)$ 与 $R(\alpha_2 | x)$ ，选择风险更小的决策：

$\begin{aligned} &\text{若 } \lambda_{12} P(\omega_2 | x) \leq \lambda_{21} P(\omega_1 | x) \implies x \in \omega_1 \\ &\text{若 } \lambda_{12} P(\omega_2 | x) > \lambda_{21} P(\omega_1 | x) \implies x \in \omega_2 \tag{2-29} \end{aligned}$

4. 似然比形式（与贝叶斯公式结合）

将后验概率 $P(\omega_j | x) = \frac{p(x | \omega_j)P(\omega_j)}{p(x)}$ 代入式(2-29)，消去公共项 $p(x)$ ，可得似然比决策规则：

定义似然比 $l(x) = \frac{p(x | \omega_1)}{p(x | \omega_2)}$ ，阈值 $\lambda = \frac{\lambda_{12} P(\omega_2)}{\lambda_{21} P(\omega_1)}$ ，则：

$\begin{aligned} &\text{若 } l(x) \geq \lambda \implies x \in \omega_1 \\ &\text{若 } l(x) < \lambda \implies x \in \omega_2 \tag{2-31} \end{aligned}$

四、与最小错误率贝叶斯决策的关系

当两类错误损失相等（ $\lambda_{12} = \lambda_{21} = 1$ ）且正确决策损失为0（ $\lambda_{11} = \lambda_{22} = 0$ ）时，最小风险决策规则退化为最小错误率决策规则：

条件风险简化为错误概率： $R(\alpha_1 | x) = P(\omega_2 | x)$ （错误率）， $R(\alpha_2 | x) = P(\omega_1 | x)$ （错误率）；
决策规则变为： $\text{若 } P(\omega_1 | x) > P(\omega_2 | x) \implies x \in \omega_1$ ，即最小错误率准则。

五、示例

已知条件（例2.1延伸）：

先验概率： $P(\omega_1) = 0.9$ （正常细胞）， $P(\omega_2) = 0.1$ （异常细胞）；
类条件密度： $p(x | \omega_1) = 0.2$ ， $p(x | \omega_2) = 0.4$ ；
损失表： $\lambda_{11}=0$ ， $\lambda_{12}=6$ ， $\lambda_{21}=1$ ， $\lambda_{22}=0$ 。

步骤1：计算后验概率（例2.1结果）

$P(\omega_1 | x) = 0.818, \quad P(\omega_2 | x) = 0.182$

步骤2：计算条件风险

$\begin{aligned} R(\alpha_1 | x) &= \lambda_{12} P(\omega_2 | x) = 6 \times 0.182 = 1.092 \\ R(\alpha_2 | x) &= \lambda_{21} P(\omega_1 | x) = 1 \times 0.818 = 0.818 \end{aligned}$

步骤3：决策
因 $R(\alpha_2 | x) < R(\alpha_1 | x)$ ，故决策为 $\omega_2$ （异常细胞）—— 与最小错误率决策（判为 $\omega_1$ ）结果相反，体现了"损失差异"对决策的影响。

六、核心结论

最小风险贝叶斯决策的关键是损失函数设计，需结合领域知识（如"漏诊癌症"损失远大于"误诊正常"）；
决策过程需先计算后验概率，再计算条件风险，最终选择风险最小的决策；
最小错误率决策是最小风险决策的特例（损失均等时），更适用于"错误损失无差异"的场景。

模式识别与机器学习 > 第二章统计决策方法

#模式识别 #机器学习 #贝叶斯决策

2.3 最小风险贝叶斯决策

https://hellowydwyd.github.io/2025/10/21/2-3-最小风险贝叶斯决策/

作者

YuDong Wang

发布于

2025年10月21日

许可协议

2.4 两类错误率、Neyman-Pearson 决策与ROC曲线上一篇

2.2 错误率与贝叶斯决策下一篇

2.3 最小风险贝叶斯决策

一、核心概念与符号约定

1. 基本要素定义

2. 决策表示例（损失函数λ(αi,ωj)\lambda(\alpha_i, \omega_j)λ(αi​,ωj​)的一般决策表）

二、核心公式推导

1. 条件风险（给定样本xxx时的期望损失）

2. 期望风险（全局平均风险）

3. 最小风险决策规则

三、两类问题的简化形式（无拒绝决策）

1. 关键损失约定

2. 条件风险简化

3. 两类问题的决策规则

4. 似然比形式（与贝叶斯公式结合）

四、与最小错误率贝叶斯决策的关系

五、示例

六、核心结论

2. 决策表示例（损失函数 $\lambda(\alpha_i, \omega_j)$ 的一般决策表）

1. 条件风险（给定样本 $x$ 时的期望损失）