性能度量

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量（performance measure）。性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果，这也意味着模型的“好坏”是相对的，什么样的模型是好的，不仅取决于算法和数据，还取决于任务需求。
在预测任务中，给定样例集\(D = \{ (\pmb{x}_1,y_1), (\pmb{x}_2,y_2), \cdots, (\pmb{x}_m,y_m)\}\)，其中\(y_i\)是示例\(\pmb{x}_i\)的真实标记。要评估学习器\(f\)的性能，需要把学习器预测结果\(f(\pmb{x})\)和真实标记\(y\)进行比较。
回归任务中最常用的性能度量是“均方误差”（mean squared error） \[E(f;D) = \frac{1}{m} \sum_{i=1}^m (f(\pmb{x}_i) - y_i)^2\] 更一般的，对于数据分布\(\mathscr{D}\)和概率密度函数\(p(·)\)，均方误差可描述为 \[E(f;D) = \int_{\pmb{x} \sim \mathscr{D}} (f(\pmb{x}_i) - y_i)^2 p(\pmb{x}) d \pmb{x}\]

1. 错误率与精度

错误率：分类错误的样本数占样本总数的比例；
精度：分类正确的样本数占样本总数的比例。

对样例集\(D\)，分类错误率定义为 \[E(f;D) = \frac{1}{m} \sum_{i=1}^m I(f(\pmb{x}_i) \neq y_i)\] 精度则定义为 \[acc(f;D) = \frac{1}{m} \sum_{i=1}^m I(f(\pmb{x}_i) = y_i) = 1 - E(f;D)\] 更一般的，对于数据分布\(\mathscr{D}\)和概率密度函数\(p(·)\)，错误率与精度可分别描述为 \[E(f;D) = \int_{\pmb{x} \sim \mathscr{D}} I(f(\pmb{x}) \neq y) p(\pmb{x}) d \pmb{x}\] 和 \[\begin{align} acc(f;D) &= \int_{\pmb{x} \sim \mathscr{D}} I(f(\pmb{x}) = y) p(\pmb{x}) d \pmb{x} \nonumber \\ &= 1 - E(f;D) \nonumber \end{align}\]

2. 查准率、查全率和\(F1\)

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例（true positive）、假正例（false positive）、真反例（true negative）、假反例（false negative）四种情形，令\(TP、FP、TN、FN\)分别表示其对应的样例数，则显然有\(TP + FP + TN + FN = 样例总数\)。

查准率\(P\)和查全率\(R\)分别定义为 \[\begin{align} P = \frac{TP}{TP + FP} \nonumber \\ R = \frac{TP}{TP + FN} \nonumber \end{align}\] 查准率和查全率是一对矛盾的变量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。
我们可以根据学习器的预测结果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本，排在最后的则是学习器认为“最不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率。以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线”，显示该曲线的图称为“P-R图”。

P-R图直观的显示出学习器在样本总体上的查全率、查准率。在进行比较时：

若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者，例如上图中学习器A的性能优于学习器C；
如果两个学习器的P-R曲线发生了交叉，例如上图中的A与B，则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较。

在很多情形下，往往仍希望把学习器A与B比出个高低。这时一个合理的判据是比较P-R曲线下面积的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例，但这个值不太容易估算。
“平衡点”（Break-Even Point，BEP）是“查准率=查全率”时的取值，基于BEP的比较，可认为学习器A优于B。
\(F1\)值是基于查准率和查全率的调和平均（harmonic mean）定义的： \[\begin{align} \frac{1}{F1} &= \frac{1}{2} · (\frac{1}{P} + \frac{1}{R}) \nonumber \\ F1 &= \frac{2PR}{P+R} \nonumber \end{align}\] \(F_{\beta}\)则是加权调和平均： \[\begin{align} \frac{1}{F_{\beta}} &= \frac{1}{1+\beta^2} · (\frac{1}{P} + \frac{\beta^2}{R}) \nonumber \\ F_{\beta} &= \frac{(1+\beta^2) PR}{\beta^2P + R} \nonumber \end{align}\]

很多时候有多个二分类混淆矩阵，例如进行了多次训练/测试，每次得到一个混淆矩阵；或是在多个数据集上进行训练/测试，希望估计全局性能。
一种直接的做法是先在个混淆矩阵上分别计算出查准率和查全率，记为\((P_1,R_1),(P_2,R_2),\cdots,(P_n,R_n)\)，再计算平均值，这样就得到了“宏查准率”（macro-\(P\)）、“宏查全率”（macro-\(R\)）以及相应的“宏\(F1\)”（macro-\(F1\)）： \[\begin{align} \text{macro-}P &= \frac{1}{n} \sum_{i=1}^n P_i \nonumber \\ \text{macro-}R &= \frac{1}{n} \sum_{i=1}^n R_i \nonumber \\ \text{macro-}F1 &= \frac{2 \times \text{macro-}P \times \text{macro-}R}{\text{macro-}P+\text{macro-}R} \nonumber \end{align}\] 还可现将各混淆矩阵的对应元素进行平均，得到\(TP、FP、TN、FN\)的平均值，分别记为\(\overline{TP},\overline{FP},\overline{TN},\overline{FN}\)，再基于这些平均值计算出“微查准率”（micro-\(P\)）、“微查全率”（micro-\(R\)）和“微\(F1\)”（micro-\(F1\)）： \[\begin{align} \text{micro-}P &= \frac{\overline{TP}}{\overline{TP} + \overline{FP}} \nonumber \\ \text{micro-}R &= \frac{\overline{TP}}{\overline{TP} + \overline{FN}} \nonumber \\ \text{micro-}F1 &= \frac{2 \times \text{micro-}P \times \text{micro-}R}{\text{micro-}P+\text{micro-}R} \nonumber \end{align}\]

3. ROC和AUC

很多学习器是为测试样本产生一个实值或概率预测，然后将这个预测值与一个分类阈值进行比较，若大于阈值则分为正类，否则为反类。例如，神经网络在一般情形下对每个测试样本预测出一个\([0.0,1.0]\)之间的实值，然后将这个值与0.5进行比较，大于0.5则判为正例，否则为反例。这个实值或概率预测结果的好坏，直接决定了学习器的泛化能力。实际上，根据这个实值或概率预测结果，可将测试样本进行排序，“最可能”是正例的排在最前面，“最不可能”是正例的排在最后面。这样，分类过程就相当于在这个排序中以某个“截断点”（cut point）将样本分为两部分，前一部分判为正例，后一部分判为负例。
在不同的应用任务中，可根据任务需求来采用不同的截断点：

如果重视查准率，则可选择排序中靠前的位置进行截断；
如果更重视查全率，则可选择靠后的位置进行截断。

排序本身的好坏，体现了综合考虑学习器在不同任务下的“期望泛化性能”的好坏，或者说是“一般情况下”泛化性能的好坏。ROC曲线则是从这个角度出发来研究学习器泛化性能的有力工具。

ROC全称为“受试者工作特征”（Receiver Operating Characteristic）曲线，与P-R曲线相似，根据学习器的预测结果对样例进行排序，按此顺序逐个把样本作为正例进行预测，每次计算出两个重要量的值，分别以它们为横、纵坐标作图，就得到了ROC曲线。与P-R曲线使用查准率、查全率为纵、横轴不同，ROC曲线的纵轴为“真正例率”（True Positive Rate，TPR）,横轴为“假正例率”（False Positive Rate，FPR），两者分别定义为 \[\begin{align} TPR = \frac{TP}{TP + FN} \nonumber \\ FPR = \frac{FP}{TN + FP} \nonumber \end{align}\] 显示ROC曲线的图称为“ROC图”。下图给出一个示意图，显然，对角线所对应于“随机猜测”模型，而点\((1,0)\)则对应于将所有正例排在所有反例之前的“理想模型”。

现实任务中通常利用有限个测试样例来绘制ROC图，此时仅能获得有限个（真正例率，假正例率）坐标对，无法产生（a）中光滑的ROC曲线，只能绘制出（b）所示的近似ROC曲线。
绘制过程：

给定\(m^+\)个正例和\(m^-\)个反例，根据学习器预测结果对样例进行排序，然后把分类阈值设为最大，即把所有样例均预测为反例，此时真正例率和假正例率均为0，在坐标\((0,0)\)处标记一个点；
将分类阈值依次设为每个样例的预测值，即依次将每个样例划分为正例。设前一个标记点坐标为\((x,y)\)，当前若为真正例，则对应标记点的坐标为\((x,y+\frac{1}{m^+})\)；若为假正例，则对应标记点的坐标为\((x+\frac{1}{m^-},y)\)；
用线段连接相邻点。

进行学习器的比较时，与P-R图相似：

若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；
若两个学习器的ROC曲线发生交叉，则难以一般性地断言两者孰优孰劣。较为合理的判据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve）。

AUC可通过对ROC曲线下各部分的面积求和得到。假定ROC曲线是由坐标为\(\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}\)的点按序连接而形成（\(x_1 = 0, x_m = 1\)）。参见图（b），则AUC可估算为 \[AUC = \frac{1}{2} \sum_{i=1}^{m-1} (x_{i+1} - x_i)·(y_i + y_{i+1})\] 形式化地看，AUC考虑的是样本预测的排序质量，因此它与排序误差有紧密联系。给定\(m^+\)个正例和\(m^-\)个反例，令\(D^+\)和\(D^-\)分别表示正、反例集合，则排序“损失”定义为 \[\mathscr{l}_{rank} = \frac{1}{m^+ m^-} \sum_{\pmb{x}^+ \in D^+} \sum_{\pmb{x}^- \in D^-} (I(f(\pmb{x}^+) < f(\pmb{x}^-)) + \frac{1}{2} (f(\pmb{x}^+) = f(\pmb{x}^-)))\] 即考虑每一对正、反例，若正例的预测值小于反例，则记一个“罚分”，若相等，则记0.5个“罚分”。可以看出，\(\mathscr{l}_{rank}\)对应的是ROC曲线之上的面积：若一个正例在ROC曲线上对应标记点的坐标为\((x,y)\)，则\(x\)恰是排序在其之前的反例所占的比例，即假正例率。因此有 \[AUC = 1 - \mathscr{l}_{rank}\]

4. 代价敏感错误率与代价曲线

现实任务中常会遇到这样的情况：不同类型的错误所造成的后果不同。例如在医疗诊断中，错误地把患者诊断为健康人与错误地把健康人诊断为患者，看起来都是犯了“一次错误”，但两者的影响却大不相同。为了权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”（unequal cost）。
以二分任务为例，根据任务的领域知识设定一个“代价矩阵”（cost matrix）。如下图所示，\(cost_{ij}\)表示将第\(i\)类样本预测为第\(j\)类样本的代价。一般来说，\(cost_{ii} = 0\)；若将第0类判别为第1类所造成的损失更大，则\(cost_{01} > cost_{10}\)。损失程度相差越大，\(cost_{01}\)和\(cost_{10}\)值的差别越大。
一般来说，重要的是代价比值而非绝对值，例如\(cost_{01} : cost_{10} = 5:1\)与\(50:10\)所起的效果相当。

之前介绍的性能度量大都隐式地假设了均等代价，并没有考虑不同错误会造成不同的结果。在非均等代价下，我们所希望的不再是简单地最小化错误次数，而是希望最小化“总体代价”（total cost）。若上表中的第0类作为正类、第1类作为反类，令\(D^+\)与\(D^-\)分别代表样例集\(D\)的正例子集和反例子集，则“代价敏感”（cost-sensitive）错误率为 \[E(f;D;cost) = \frac{1}{m} (\sum_{\pmb{x}_i \in D^+} I(f(\pmb{x}_i) \neq y_i) \times cost_{01} + \sum_{\pmb{x}_i \in D^-} I(f(\pmb{x}_i) \neq y_i) \times cost_{10})\] 类似的，可给出基于分布定义的代价敏感错误率，以及其他一些性能度量如精度的代价敏感版本。若令\(cost_{ij}\)中的\(i,j\)取值不限于0、1，则可定义出多分类任务中的代价敏感性能度量。
在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”（cost curve）则可达到目的。代价曲线图的横轴是取值为\([0,1]\)的整理概率代价 \[P(+)cost = \frac{p \times cost_{01}}{p \times cost_{01} + (1-p) \times cost_{10}}\] 其中\(p\)是样例为正例的概率；纵轴是取值为\([0,1]\)的归一化代价 \[cost_{norm} = \frac{FNR \times p \times cost_{01} + FPR \times (1-p) \times cost_{10}}{p \times cost_{01} + (1-p) \times cost_{10}}\] 其中\(FPR\)是假正例率，\(FNR = 1 - TPR\)是假反例率。
代价曲线的绘制：

ROC曲线上每一个点对应了代价平面上的一条线段，设ROC曲线上点的坐标\((FPR,TPR)\)，则可相应计算出\(FNR\)，然后在代价平面上绘制一条从\((0,FPR)\)到\((1,FNR)\)的线段，线段下的面积即表示了该条件下的期望总体代价；
将ROC曲线上的每个点转化为代价平面上的一条线段，然后取所有线段的下界，围成的面积即为在所有条件下学习器的期望总体代价。