2.3 最小风险贝叶斯决策

本文最后更新于:2025年10月21日 晚上

最小风险贝叶斯决策的核心是考虑分类错误带来的损失差异,在贝叶斯决策框架下追求"期望风险最小",而非单纯的"错误率最小",是最小错误率贝叶斯决策的扩展(后者可视为前者的特例)。

一、核心概念与符号约定

1. 基本要素定义

  • 样本xRdx \in \mathbb{R}^ddd维特征向量)
  • 状态空间Ω={ω1,ω2,,ωc}\Omega = \{\omega_1, \omega_2, \dots, \omega_c\}cc个类别,即cc种自然状态)
  • 决策空间Δ={α1,α2,,αk}\Delta = \{\alpha_1, \alpha_2, \dots, \alpha_k\}kk种可能决策,kk可不等于cc,如含"拒绝决策")
  • 损失函数λ(αi,ωj)\lambda(\alpha_i, \omega_j)(对真实状态为ωj\omega_j的样本采取决策αi\alpha_i时的损失)

2. 决策表示例(损失函数λ(αi,ωj)\lambda(\alpha_i, \omega_j)的一般决策表)

决策\状态 ω1\omega_1 ω2\omega_2 \dots ωj\omega_j \dots ωc\omega_c
α1\alpha_1 λ(α1,ω1)\lambda(\alpha_1, \omega_1) λ(α1,ω2)\lambda(\alpha_1, \omega_2) \dots λ(α1,ωj)\lambda(\alpha_1, \omega_j) \dots λ(α1,ωc)\lambda(\alpha_1, \omega_c)
α2\alpha_2 λ(α2,ω1)\lambda(\alpha_2, \omega_1) λ(α2,ω2)\lambda(\alpha_2, \omega_2) \dots λ(α2,ωj)\lambda(\alpha_2, \omega_j) \dots λ(α2,ωc)\lambda(\alpha_2, \omega_c)
\vdots \vdots \vdots \ddots \vdots \ddots \vdots
αi\alpha_i λ(αi,ω1)\lambda(\alpha_i, \omega_1) λ(αi,ω2)\lambda(\alpha_i, \omega_2) \dots λ(αi,ωj)\lambda(\alpha_i, \omega_j) \dots λ(αi,ωc)\lambda(\alpha_i, \omega_c)
\vdots \vdots \vdots \dots \vdots \ddots \vdots
αk\alpha_k λ(αk,ω1)\lambda(\alpha_k, \omega_1) λ(αk,ω2)\lambda(\alpha_k, \omega_2) \dots λ(αk,ωj)\lambda(\alpha_k, \omega_j) \dots λ(αk,ωc)\lambda(\alpha_k, \omega_c)
  • 通常约定:正确决策损失最小(如λ(αi,ωi)=0\lambda(\alpha_i, \omega_i) = 0),错误决策损失更大(如λ(αi,ωj)>0\lambda(\alpha_i, \omega_j) > 0iji \neq j)。

二、核心公式推导

1. 条件风险(给定样本xx时的期望损失)

对样本xx,已知其属于各类的后验概率P(ωjx)P(\omega_j | x)(由贝叶斯公式P(ωjx)=p(xωj)P(ωj)p(x)P(\omega_j | x) = \frac{p(x | \omega_j)P(\omega_j)}{p(x)}计算),采取决策αi\alpha_i条件风险定义为:

R(αix)=j=1cλ(αi,ωj)P(ωjx)(2-26)R(\alpha_i | x) = \sum_{j=1}^c \lambda(\alpha_i, \omega_j) P(\omega_j | x) \tag{2-26}

  • 含义:在样本xx的特征信息下,采取决策αi\alpha_i时,所有可能自然状态(类别)对应的损失加权和(权重为后验概率)。

2. 期望风险(全局平均风险)

对所有可能样本xx,条件风险的加权平均(权重为样本xx的概率密度p(x)p(x)),即期望风险

R=RdR(α(x)x)p(x)dx(2-28)R = \int_{\mathbb{R}^d} R(\alpha(x) | x) p(x) dx \tag{2-28}

  • 含义:全局范围内采取决策规则α(x)\alpha(x)(对不同xx选择不同αi\alpha_i)的平均损失,是衡量决策性能的全局指标。

3. 最小风险决策规则

要使期望风险RR最小,需对每个样本xx单独最小化其条件风险(因p(x)0p(x) \geq 0,全局积分最小等价于逐点最小),即:

α=argmini=1,2,,kR(αix)(2-27)\alpha^* = \arg\min_{i=1,2,\dots,k} R(\alpha_i | x) \tag{2-27}

  • 含义:对每个样本xx,选择条件风险最小的决策α\alpha^*,该决策即为当前样本的最优决策。

三、两类问题的简化形式(无拒绝决策)

当问题为两类(ω1,ω2\omega_1, \omega_2)且决策仅为"判为ω1\omega_1"(α1\alpha_1)或"判为ω2\omega_2"(α2\alpha_2)时,公式可简化:

1. 关键损失约定

  • λ11=λ(α1,ω1)\lambda_{11} = \lambda(\alpha_1, \omega_1)(正确决策:ω1\omega_1判为ω1\omega_1的损失)
  • λ12=λ(α1,ω2)\lambda_{12} = \lambda(\alpha_1, \omega_2)(错误决策:ω2\omega_2判为ω1\omega_1的损失)
  • λ21=λ(α2,ω1)\lambda_{21} = \lambda(\alpha_2, \omega_1)(错误决策:ω1\omega_1判为ω2\omega_2的损失)
  • λ22=λ(α2,ω2)\lambda_{22} = \lambda(\alpha_2, \omega_2)(正确决策:ω2\omega_2判为ω2\omega_2的损失)

通常取λ11=λ22=0\lambda_{11} = \lambda_{22} = 0,且λ12>0\lambda_{12} > 0λ21>0\lambda_{21} > 0

2. 条件风险简化

  • 决策α1\alpha_1(判为ω1\omega_1)的条件风险:

    R(α1x)=λ12P(ω2x)(2-28a)R(\alpha_1 | x) = \lambda_{12} P(\omega_2 | x) \tag{2-28a}

  • 决策α2\alpha_2(判为ω2\omega_2)的条件风险:

    R(α2x)=λ21P(ω1x)(2-28b)R(\alpha_2 | x) = \lambda_{21} P(\omega_1 | x) \tag{2-28b}

3. 两类问题的决策规则

比较R(α1x)R(\alpha_1 | x)R(α2x)R(\alpha_2 | x),选择风险更小的决策:

若 λ12P(ω2x)λ21P(ω1x)    xω1若 λ12P(ω2x)>λ21P(ω1x)    xω2(2-29)\begin{aligned} &\text{若 } \lambda_{12} P(\omega_2 | x) \leq \lambda_{21} P(\omega_1 | x) \implies x \in \omega_1 \\ &\text{若 } \lambda_{12} P(\omega_2 | x) > \lambda_{21} P(\omega_1 | x) \implies x \in \omega_2 \tag{2-29} \end{aligned}

4. 似然比形式(与贝叶斯公式结合)

将后验概率P(ωjx)=p(xωj)P(ωj)p(x)P(\omega_j | x) = \frac{p(x | \omega_j)P(\omega_j)}{p(x)}代入式(2-29),消去公共项p(x)p(x),可得似然比决策规则

定义似然比l(x)=p(xω1)p(xω2)l(x) = \frac{p(x | \omega_1)}{p(x | \omega_2)},阈值λ=λ12P(ω2)λ21P(ω1)\lambda = \frac{\lambda_{12} P(\omega_2)}{\lambda_{21} P(\omega_1)},则:

若 l(x)λ    xω1若 l(x)<λ    xω2(2-31)\begin{aligned} &\text{若 } l(x) \geq \lambda \implies x \in \omega_1 \\ &\text{若 } l(x) < \lambda \implies x \in \omega_2 \tag{2-31} \end{aligned}

四、与最小错误率贝叶斯决策的关系

当两类错误损失相等(λ12=λ21=1\lambda_{12} = \lambda_{21} = 1)且正确决策损失为0(λ11=λ22=0\lambda_{11} = \lambda_{22} = 0)时,最小风险决策规则退化为最小错误率决策规则

  • 条件风险简化为错误概率:R(α1x)=P(ω2x)R(\alpha_1 | x) = P(\omega_2 | x)(错误率),R(α2x)=P(ω1x)R(\alpha_2 | x) = P(\omega_1 | x)(错误率);
  • 决策规则变为:若 P(ω1x)>P(ω2x)    xω1\text{若 } P(\omega_1 | x) > P(\omega_2 | x) \implies x \in \omega_1,即最小错误率准则。

五、示例

已知条件(例2.1延伸):

  • 先验概率:P(ω1)=0.9P(\omega_1) = 0.9(正常细胞),P(ω2)=0.1P(\omega_2) = 0.1(异常细胞);
  • 类条件密度:p(xω1)=0.2p(x | \omega_1) = 0.2p(xω2)=0.4p(x | \omega_2) = 0.4
  • 损失表:λ11=0\lambda_{11}=0λ12=6\lambda_{12}=6λ21=1\lambda_{21}=1λ22=0\lambda_{22}=0

步骤1:计算后验概率(例2.1结果)

P(ω1x)=0.818,P(ω2x)=0.182P(\omega_1 | x) = 0.818, \quad P(\omega_2 | x) = 0.182

步骤2:计算条件风险

R(α1x)=λ12P(ω2x)=6×0.182=1.092R(α2x)=λ21P(ω1x)=1×0.818=0.818\begin{aligned} R(\alpha_1 | x) &= \lambda_{12} P(\omega_2 | x) = 6 \times 0.182 = 1.092 \\ R(\alpha_2 | x) &= \lambda_{21} P(\omega_1 | x) = 1 \times 0.818 = 0.818 \end{aligned}

步骤3:决策
R(α2x)<R(α1x)R(\alpha_2 | x) < R(\alpha_1 | x),故决策为ω2\omega_2(异常细胞)—— 与最小错误率决策(判为ω1\omega_1)结果相反,体现了"损失差异"对决策的影响。

六、核心结论

  1. 最小风险贝叶斯决策的关键是损失函数设计,需结合领域知识(如"漏诊癌症"损失远大于"误诊正常");
  2. 决策过程需先计算后验概率,再计算条件风险,最终选择风险最小的决策;
  3. 最小错误率决策是最小风险决策的特例(损失均等时),更适用于"错误损失无差异"的场景。

2.3 最小风险贝叶斯决策
https://hellowydwyd.github.io/2025/10/21/2-3-最小风险贝叶斯决策/
作者
YuDong Wang
发布于
2025年10月21日
许可协议