2.4 两类错误率、Neyman-Pearson 决策与ROC曲线

本文最后更新于:2025年10月21日 晚上

在两类分类问题中,不同类型的错误(如医学诊断中的漏诊、误诊)往往带来不同损失。本节围绕"两类错误率的细分与权衡"展开,重点介绍错误率的定义、Neyman-Pearson决策规则(固定一类错误率最小化另一类)及ROC曲线(可视化错误率权衡关系),是贝叶斯决策框架的重要补充。

一、核心概念与两类错误率定义

1. 基本场景与符号约定

  • 两类问题:设类别为"阳性"(ω1\omega_1,如疾病存在)和"阴性"(ω2\omega_2,如疾病不存在),决策空间仅含"判为阳性"(α1\alpha_1)和"判为阴性"(α2\alpha_2),无拒绝决策。
  • 决策结果分类:根据"真实类别"与"决策结果"的组合,分为4种情况:
决策\真实状态 阳性(ω1\omega_1 阴性(ω2\omega_2
判为阳性(α1\alpha_1 真阳性(TP) 假阳性(FP)
判为阴性(α2\alpha_2 假阴性(FN) 真阴性(TN)

2. 关键错误率与评价指标

基于上述4类结果,定义两类错误率及衍生评价指标:

(1)两类核心错误率

  • 假阳性率(第一类错误率,α\alpha:真实阴性样本被误判为阳性的比例,反映"误诊"风险:

    α=FP率=FPFP+TN(2-35)\alpha = \text{FP率} = \frac{\text{FP}}{\text{FP} + \text{TN}} \tag{2-35}

  • 假阴性率(第二类错误率,β\beta:真实阳性样本被误判为阴性的比例,反映"漏诊"风险:

    β=FN率=FNTP+FN(2-34)\beta = \text{FN率} = \frac{\text{FN}}{\text{TP} + \text{FN}} \tag{2-34}

(2)临床/工程常用评价指标

  • 灵敏度(Sensitivity,Sn):真实阳性样本被正确识别的比例(漏诊率的互补指标):

    Sn=TPTP+FN=1β(2-32)\text{Sn} = \frac{\text{TP}}{\text{TP} + \text{FN}} = 1 - \beta \tag{2-32}

    (含义:疾病患者被正确诊断的概率,越高漏诊越少)
  • 特异度(Specificity,Sp):真实阴性样本被正确识别的比例(误诊率的互补指标):

    Sp=TNTN+FP=1α(2-33)\text{Sp} = \frac{\text{TN}}{\text{TN} + \text{FP}} = 1 - \alpha \tag{2-33}

    (含义:健康人被正确排除的概率,越高误诊越少)
  • 正确率(Accuracy,ACC):所有样本中正确分类的比例(全局性能):

    ACC=TP+TNTP+TN+FP+FN\text{ACC} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}

  • 精确率(Precision,Pre):判为阳性的样本中真实阳性的比例(避免"假阳性污染"):

    Pre=TPTP+FP\text{Pre} = \frac{\text{TP}}{\text{TP} + \text{FP}}

  • F1度量:精确率与召回率(Recall,即灵敏度)的调和平均,综合两者性能:

    F1=2×Pre×RecallPre+Recall\text{F1} = 2 \times \frac{\text{Pre} \times \text{Recall}}{\text{Pre} + \text{Recall}}

二、Neyman-Pearson决策规则

1. 问题背景

在部分场景中,需固定某一类错误率(如医学诊断中要求漏诊率βε0\beta \leq \varepsilon_0,避免遗漏重症患者),在此约束下最小化另一类错误率(如误诊率α\alpha),这一需求催生Neyman-Pearson决策。

2. 数学建模与推导

(1)约束优化问题

设:

  • 决策域:R1\mathscr{R}_1(判为ω1\omega_1)、R2\mathscr{R}_2(判为ω2\omega_2
  • 类条件密度:p(xω1)p(x|\omega_1)(阳性样本特征密度)、p(xω2)p(x|\omega_2)(阴性样本特征密度)
  • 约束:第二类错误率β=R1p(xω2)dxε0\beta = \int_{\mathscr{R}_1} p(x|\omega_2)dx \leq \varepsilon_0(固定漏诊率上限)
  • 目标:最小化第一类错误率α=R2p(xω1)dx\alpha = \int_{\mathscr{R}_2} p(x|\omega_1)dx(最小化误诊率)

(2)拉格朗日乘数法求解

将约束优化转化为无约束问题,构造拉格朗日函数:

γ=α+λ(βε0)=R2p(xω1)dx+λ(R1p(xω2)dxε0)\gamma = \alpha + \lambda \left( \beta - \varepsilon_0 \right) = \int_{\mathscr{R}_2} p(x|\omega_1)dx + \lambda \left( \int_{\mathscr{R}_1} p(x|\omega_2)dx - \varepsilon_0 \right)

其中λ>0\lambda > 0为拉格朗日乘数。

通过分析γ\gamma的最小化条件(积分区域优化),可得决策规则

定义似然比l(x)=p(xω1)p(xω2)l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)},存在阈值λ\lambda^*,使得:

若 l(x)λ    xω1(判为阳性)若 l(x)<λ    xω2(判为阴性)(2-43)\begin{aligned} &\text{若 } l(x) \geq \lambda^* \implies x \in \omega_1 \quad (\text{判为阳性}) \\ &\text{若 } l(x) < \lambda^* \implies x \in \omega_2 \quad (\text{判为阴性}) \tag{2-43} \end{aligned}

(3)阈值λ\lambda^*的确定

阈值λ\lambda^*需满足约束β=ε0\beta = \varepsilon_0,即:

{xl(x)λ}p(xω2)dx=ε0\int_{\{x | l(x) \geq \lambda^*\}} p(x|\omega_2)dx = \varepsilon_0

由于l(x)l(x)是随机变量,其密度p(lω2)p(l|\omega_2)可通过样本估计,λ\lambda^*需通过数值方法(如试探法)求解,确保上述积分等于ε0\varepsilon_0

三、ROC曲线与AUC指标

1. ROC曲线的定义与绘制

(1)核心思想

通过调整决策阈值(如Neyman-Pearson中的λ\lambda^*),可得到多组"假阳性率(α\alpha)-真阳性率(1β1-\beta)" pairs,将这些pairs绘制成曲线,即为ROC曲线(Receiver Operating Characteristic Curve)。

(2)曲线特征

  • 坐标轴:横坐标为"假阳性率(1-特异度)",纵坐标为"真阳性率(灵敏度)"
  • 极端点
    • 阈值极小(全判阳性):α=1\alpha=11β=11-\beta=1(对应点(1,1)(1,1)
    • 阈值极大(全判阴性):α=0\alpha=01β=01-\beta=0(对应点(0,0)(0,0)
  • 随机猜测线:若分类器无判别能力,α=1β\alpha = 1-\beta,对应对角线(AUC=0.5)
  • 理想曲线:沿纵轴上升至(0,1)(0,1),再沿横轴右移至(1,1)(1,1)(AUC=1,无错误)

2. ROC曲线的应用

(1)分类器性能比较

  • 曲线越靠近左上角,分类器性能越好(高灵敏度+高特异度)
  • 例:若分类器A的ROC曲线完全包围分类器B的曲线,则A性能优于B

(2)最优阈值选择

根据应用需求在曲线上选择"工作点":

  • 医学诊断(如癌症筛查):优先高灵敏度(降低漏诊),选择曲线上"灵敏度接近1"的点
  • 垃圾邮件过滤:优先高特异度(降低误判正常邮件),选择曲线上"特异度接近1"的点

(3)AUC指标(曲线下面积)

为量化ROC曲线性能,定义AUC(Area Under ROC Curve)

  • 取值范围:0.5AUC10.5 \leq \text{AUC} \leq 1
  • 含义:随机抽取1个阳性样本和1个阴性样本,分类器将阳性样本判为阳性的概率高于阴性样本的概率
  • 评价标准:AUC越接近1,分类器区分能力越强;AUC=0.5时无区分能力

四、与贝叶斯决策的关联

  1. 与最小风险贝叶斯决策的区别
    最小风险决策通过"损失函数"权衡两类错误(如λ12\lambda_{12}(误诊损失)、λ21\lambda_{21}(漏诊损失)),而Neyman-Pearson决策直接"固定一类错误率",更适用于"某类错误代价极高且必须控制"的场景(如新冠筛查需严格控制漏诊率)。

  2. 决策规则的统一性
    最小错误率贝叶斯决策(阈值λ=P(ω2)P(ω1)\lambda = \frac{P(\omega_2)}{P(\omega_1)})、最小风险决策(阈值λ=λ12P(ω2)λ21P(ω1)\lambda = \frac{\lambda_{12}P(\omega_2)}{\lambda_{21}P(\omega_1)})与Neyman-Pearson决策(阈值λ\lambda^*),本质均为"似然比与阈值比较",仅阈值确定方式不同(分别由先验概率、损失+先验概率、错误率约束决定)。

五、核心结论

  1. 两类分类问题中,假阳性率与假阴性率存在 trade-off(降低一类必然升高另一类),需根据场景优先级选择权衡策略
  2. Neyman-Pearson决策是"固定一类错误率、最小化另一类"的经典方法,适用于"某类错误不可容忍"的场景
  3. ROC曲线是错误率权衡关系的直观可视化工具,AUC可定量评价分类器性能,二者是模式识别系统(如医疗诊断、风控)性能评估的核心手段

2.4 两类错误率、Neyman-Pearson 决策与ROC曲线
https://hellowydwyd.github.io/2025/10/21/2-4-两类错误率、Neyman-Pearson-决策与ROC曲线/
作者
YuDong Wang
发布于
2025年10月21日
许可协议