模型集成评估模型Model evaluators二元分类评估器

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

二元分类评估器

在建模目标中的默认评估库之一是二元分类评估器。该库提供了一组用于评估二元分类模型的常用指标。

完整的二元分类器评估仪表盘

包含的指标

以下指标是为每个在评估仪表盘中配置的子集桶生成的。如果生成的子集在模型预测或标签列中不包含两个类别,则可能无法在每个子集上生成所有指标。

默认的二元分类评估器生成以下数值指标:

  • 行数: 评估数据集中的记录数量。
  • 先验: 评估数据集中正结果的比例。注意,先验不是模型性能的直接度量,但可以用于上下文化其他指标。
  • 准确率: 正确分类的记录比例。模型的准确率介于0和1之间,其中1表示模型正确分类评估数据集中的每一条记录。
  • 精确率: 真正例数除以真正例和假正例之和。范围介于0和1之间,其中1是完美的模型精确率。
  • 召回率: 真正例总数除以真正例和假负例之和。范围介于0和1之间,其中1是完美的模型召回率。也称为敏感性
  • F1得分: 精确率和召回率的调和平均数,计算为精确率和召回率的乘积除以精确率和召回率之和。模型的F1得分范围在0到1之间,其中1表示模型正确分类评估数据集中的每一条记录。
  • Matthews相关系数(MCC): 结合标签与预测值之间的数值相关性的模型性能的数值度量结果。MCC只有在分类器在两个类别上表现良好时才会很高。MCC的范围在-1到1之间,其中1表示正确分类每一条记录。
  • ROC AUC得分 (需要概率): ROC(受试者工作特征)曲线下的面积;AUC代表“曲线下面积”。范围从0到1,其中1表示完美模型,0.5是模型随机猜测时的预期得分。

默认的二元分类评估器生成以下图表:

  • 混淆矩阵: 显示评估数据集中预测的真正例、假正例、假负例和真负例的数量。
  • 得分分布: 评估数据集上模型预测的条形图。
  • 概率分布 (需要概率): 评估数据集上模型输出概率的条形图。桶宽为0.05,在[0.0, 1.0]范围内总共有20个桶。
  • ROC曲线 (需要概率): 绘制不同概率下的真阳性率与假阳性率。曲线越陡峭通常表示模型性能越好。
  • 真阳性率 (TPR) 曲线 (需要概率): TPR曲线绘制了真阳性率与模型预测概率。
  • 假阳性率 (FPR) 曲线 (需要概率): FPR曲线绘制了假阳性率与模型预测概率。
  • 提升曲线 (需要概率): 显示模型在每个概率上的提升;提升是模型在正类上相对于随机机会的性能度量。

配置

有关完整的配置说明,请参阅如何配置模型评估库的文档。

必填字段

以下字段是二元分类评估器所需的。预期这些列的值类型为整数。

  • inference_field: 表示模型预测分类的列。该评估器假设1是正类,0是负类。
  • actual_field: 包含模型预测应与之比较的值的列。该评估器假设1是正类,0是负类。

非必填字段

  • probability_field: 这是一个非必填字段,表示正预测类的概率。当提供了probability_field时,默认的二元分类评估库将生成以下指标:

    • ROC AUC得分
    • ROC曲线
    • TPR曲线
    • FPR曲线
    • 提升曲线
  • max_samples_for_roc 生成模型ROC曲线的最大样本数量。如果未提供,默认为200

配置二元分类评估器