2.4 两类错误率、Neyman-Pearson 决策与ROC曲线

本文最后更新于：2025年10月21日晚上

在两类分类问题中，不同类型的错误（如医学诊断中的漏诊、误诊）往往带来不同损失。本节围绕"两类错误率的细分与权衡"展开，重点介绍错误率的定义、Neyman-Pearson决策规则（固定一类错误率最小化另一类）及ROC曲线（可视化错误率权衡关系），是贝叶斯决策框架的重要补充。

一、核心概念与两类错误率定义

1. 基本场景与符号约定

两类问题：设类别为"阳性"（ $\omega_1$ ，如疾病存在）和"阴性"（ $\omega_2$ ，如疾病不存在），决策空间仅含"判为阳性"（ $\alpha_1$ ）和"判为阴性"（ $\alpha_2$ ），无拒绝决策。
决策结果分类：根据"真实类别"与"决策结果"的组合，分为4种情况：

决策\真实状态	阳性（ $\omega_1$ ）	阴性（ $\omega_2$ ）
判为阳性（ $\alpha_1$ ）	真阳性（TP）	假阳性（FP）
判为阴性（ $\alpha_2$ ）	假阴性（FN）	真阴性（TN）

2. 关键错误率与评价指标

基于上述4类结果，定义两类错误率及衍生评价指标：

（1）两类核心错误率

假阳性率（第一类错误率， $\alpha$ ）：真实阴性样本被误判为阳性的比例，反映"误诊"风险：
$\alpha = \text{FP率} = \frac{\text{FP}}{\text{FP} + \text{TN}} \tag{2-35}$
假阴性率（第二类错误率， $\beta$ ）：真实阳性样本被误判为阴性的比例，反映"漏诊"风险：
$\beta = \text{FN率} = \frac{\text{FN}}{\text{TP} + \text{FN}} \tag{2-34}$

（2）临床/工程常用评价指标

灵敏度（Sensitivity，Sn）：真实阳性样本被正确识别的比例（漏诊率的互补指标）：
$\text{Sn} = \frac{\text{TP}}{\text{TP} + \text{FN}} = 1 - \beta \tag{2-32}$
（含义：疾病患者被正确诊断的概率，越高漏诊越少）
特异度（Specificity，Sp）：真实阴性样本被正确识别的比例（误诊率的互补指标）：
$\text{Sp} = \frac{\text{TN}}{\text{TN} + \text{FP}} = 1 - \alpha \tag{2-33}$
（含义：健康人被正确排除的概率，越高误诊越少）
正确率（Accuracy，ACC）：所有样本中正确分类的比例（全局性能）：
$\text{ACC} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}}$
精确率（Precision，Pre）：判为阳性的样本中真实阳性的比例（避免"假阳性污染"）：
$\text{Pre} = \frac{\text{TP}}{\text{TP} + \text{FP}}$
F1度量：精确率与召回率（Recall，即灵敏度）的调和平均，综合两者性能：
$\text{F1} = 2 \times \frac{\text{Pre} \times \text{Recall}}{\text{Pre} + \text{Recall}}$

二、Neyman-Pearson决策规则

1. 问题背景

在部分场景中，需固定某一类错误率（如医学诊断中要求漏诊率 $\beta \leq \varepsilon_0$ ，避免遗漏重症患者），在此约束下最小化另一类错误率（如误诊率 $\alpha$ ），这一需求催生Neyman-Pearson决策。

2. 数学建模与推导

（1）约束优化问题

设：

决策域： $\mathscr{R}_1$ （判为 $\omega_1$ ）、 $\mathscr{R}_2$ （判为 $\omega_2$ ）
类条件密度： $p(x|\omega_1)$ （阳性样本特征密度）、 $p(x|\omega_2)$ （阴性样本特征密度）
约束：第二类错误率 $\beta = \int_{\mathscr{R}_1} p(x|\omega_2)dx \leq \varepsilon_0$ （固定漏诊率上限）
目标：最小化第一类错误率 $\alpha = \int_{\mathscr{R}_2} p(x|\omega_1)dx$ （最小化误诊率）

（2）拉格朗日乘数法求解

将约束优化转化为无约束问题，构造拉格朗日函数：

$\gamma = \alpha + \lambda \left( \beta - \varepsilon_0 \right) = \int_{\mathscr{R}_2} p(x|\omega_1)dx + \lambda \left( \int_{\mathscr{R}_1} p(x|\omega_2)dx - \varepsilon_0 \right)$

其中 $\lambda > 0$ 为拉格朗日乘数。

通过分析 $\gamma$ 的最小化条件（积分区域优化），可得决策规则：

定义似然比 $l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)}$ ，存在阈值 $\lambda^*$ ，使得：

$\begin{aligned} &\text{若 } l(x) \geq \lambda^* \implies x \in \omega_1 \quad (\text{判为阳性}) \\ &\text{若 } l(x) < \lambda^* \implies x \in \omega_2 \quad (\text{判为阴性}) \tag{2-43} \end{aligned}$

（3）阈值 $\lambda^*$ 的确定

阈值 $\lambda^*$ 需满足约束 $\beta = \varepsilon_0$ ，即：

$\int_{\{x | l(x) \geq \lambda^*\}} p(x|\omega_2)dx = \varepsilon_0$

由于 $l(x)$ 是随机变量，其密度 $p(l|\omega_2)$ 可通过样本估计， $\lambda^*$ 需通过数值方法（如试探法）求解，确保上述积分等于 $\varepsilon_0$ 。

三、ROC曲线与AUC指标

1. ROC曲线的定义与绘制

（1）核心思想

通过调整决策阈值（如Neyman-Pearson中的 $\lambda^*$ ），可得到多组"假阳性率（ $\alpha$ ）-真阳性率（ $1-\beta$ ）" pairs，将这些pairs绘制成曲线，即为ROC曲线（Receiver Operating Characteristic Curve）。

（2）曲线特征

坐标轴：横坐标为"假阳性率（1-特异度）"，纵坐标为"真阳性率（灵敏度）"
极端点：
- 阈值极小（全判阳性）： $\alpha=1$ ， $1-\beta=1$ （对应点 $(1,1)$ ）
- 阈值极大（全判阴性）： $\alpha=0$ ， $1-\beta=0$ （对应点 $(0,0)$ ）
随机猜测线：若分类器无判别能力， $\alpha = 1-\beta$ ，对应对角线（AUC=0.5）
理想曲线：沿纵轴上升至 $(0,1)$ ，再沿横轴右移至 $(1,1)$ （AUC=1，无错误）

2. ROC曲线的应用

（1）分类器性能比较

曲线越靠近左上角，分类器性能越好（高灵敏度+高特异度）
例：若分类器A的ROC曲线完全包围分类器B的曲线，则A性能优于B

（2）最优阈值选择

根据应用需求在曲线上选择"工作点"：

医学诊断（如癌症筛查）：优先高灵敏度（降低漏诊），选择曲线上"灵敏度接近1"的点
垃圾邮件过滤：优先高特异度（降低误判正常邮件），选择曲线上"特异度接近1"的点

（3）AUC指标（曲线下面积）

为量化ROC曲线性能，定义AUC（Area Under ROC Curve）：

取值范围： $0.5 \leq \text{AUC} \leq 1$
含义：随机抽取1个阳性样本和1个阴性样本，分类器将阳性样本判为阳性的概率高于阴性样本的概率
评价标准：AUC越接近1，分类器区分能力越强；AUC=0.5时无区分能力

四、与贝叶斯决策的关联

与最小风险贝叶斯决策的区别：
最小风险决策通过"损失函数"权衡两类错误（如 $\lambda_{12}$ （误诊损失）、 $\lambda_{21}$ （漏诊损失）），而Neyman-Pearson决策直接"固定一类错误率"，更适用于"某类错误代价极高且必须控制"的场景（如新冠筛查需严格控制漏诊率）。
决策规则的统一性：
最小错误率贝叶斯决策（阈值 $\lambda = \frac{P(\omega_2)}{P(\omega_1)}$ ）、最小风险决策（阈值 $\lambda = \frac{\lambda_{12}P(\omega_2)}{\lambda_{21}P(\omega_1)}$ ）与Neyman-Pearson决策（阈值 $\lambda^*$ ），本质均为"似然比与阈值比较"，仅阈值确定方式不同（分别由先验概率、损失+先验概率、错误率约束决定）。

五、核心结论

两类分类问题中，假阳性率与假阴性率存在 trade-off（降低一类必然升高另一类），需根据场景优先级选择权衡策略
Neyman-Pearson决策是"固定一类错误率、最小化另一类"的经典方法，适用于"某类错误不可容忍"的场景
ROC曲线是错误率权衡关系的直观可视化工具，AUC可定量评价分类器性能，二者是模式识别系统（如医疗诊断、风控）性能评估的核心手段

模式识别与机器学习 > 第二章统计决策方法

#模式识别 #机器学习

2.4 两类错误率、Neyman-Pearson 决策与ROC曲线

https://hellowydwyd.github.io/2025/10/21/2-4-两类错误率、Neyman-Pearson-决策与ROC曲线/

作者

YuDong Wang

发布于

2025年10月21日

许可协议

1 数据库概论上一篇

2.3 最小风险贝叶斯决策下一篇

2.4 两类错误率、Neyman-Pearson 决策与ROC曲线

一、核心概念与两类错误率定义

1. 基本场景与符号约定

2. 关键错误率与评价指标

（1）两类核心错误率

（2）临床/工程常用评价指标

二、Neyman-Pearson决策规则

1. 问题背景

2. 数学建模与推导

（1）约束优化问题

（2）拉格朗日乘数法求解

（3）阈值λ∗\lambda^*λ∗的确定

三、ROC曲线与AUC指标

1. ROC曲线的定义与绘制

（1）核心思想

（2）曲线特征

2. ROC曲线的应用

（1）分类器性能比较

（2）最优阈值选择

（3）AUC指标（曲线下面积）

四、与贝叶斯决策的关联

五、核心结论

（3）阈值 $\lambda^*$ 的确定