模型集成评估模型Evaluate models自动评估模型

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

自动评估模型

随着建模项目的成熟、规模扩大并投入运营,系统地评估和比较当前和新的模型提交是至关重要的。模型提交应使用维护良好的代表性数据和明确定义的指标进行一致评估。

可以配置一个建模目标,以自动生成针对该目标提交的所有模型的推理和指标流水线,从而使您能够在软件中实施系统的测试和评估(T&E)计划。

设置管理指标流水线图

配置模型评估

要启用自动模型评估,您必须首先配置您的建模目标,了解如何评估提交到您的建模目标的模型。

启用流水线管理

在建模目标中配置自动模型评估的第一步是启用推理和指标生成。在建模目标主页中,选择配置评估仪表盘,或者如果您已配置了模型评估,则从评估仪表盘中选择编辑评估配置

配置推理和指标生成

在评估仪表盘配置视图中,您可以决定是自动生成推理和指标流水线还是仅生成推理流水线。根据您的选择,推理和指标数据集将为所有现有模型提交以及任何新的模型提交到建模目标生成。

配置自动模型推理或评估

接下来,您可以决定在提交新模型时是否自动搭建推理或推理和指标数据集。自动搭建推理和指标数据集可确保所有被考虑用于建模项目的模型都得到一致评估。

推理和指标流水线仅在模型提交时搭建。对于现有模型提交,您需要通过评估仪表盘上的搭建评估按钮手动启动搭建。

点击保存以保存推理和指标生成设置。

添加评估数据集

评估数据集是一个Foundry数据集,模型将在建模目标内针对该数据集进行评估。如果建模目标配置为自动生成推理流水线,则每个模型提交和评估数据集的组合将生成一个推理数据集。每个评估数据集应该是相关的并精心维护的;它可能包括策划的验证或测试集、生产观察、用户反馈实例、关键测试案例或假设场景的表示。评估数据集应具有模型运行推理所需的数据集字段或文件。

评估数据集可以具有不同的大小、更新节奏和权限;保持这些数据集分开可以更好地控制计算指标的节奏和权限。

权限

权限在建模目标内得到充分尊重。没有适当访问权限的用户无法查看模型、评估数据集、评估库或指标。

要配置评估数据集,选择添加评估数据集。弹出窗口将允许您配置:

  • 评估数据集。
  • 为该评估数据集生成推理数据集的Foundry文件夹。
  • 为该评估数据集生成指标数据集的Foundry文件夹。

Foundry文件夹可以是新的或现有的,不要求评估数据集唯一。通常,我们建议每个建模目标使用一个输出文件夹,但可以根据您的特定应用案例进行配置。

添加评估数据集

评估数据集和目标本身需要与推理和指标目的地在同一个Foundry项目中,或者应该作为引用添加到Foundry项目中

建模目标中的自动模型评估仅与具有单个表格数据集输入的模型兼容。

配置评估库

如果您已配置建模目标以生成指标和推理流水线,下一步是配置评估库。评估库是Foundry中已发布的Python包,用于生成模型评估器。Foundry附带默认的模型评估器用于二元分类回归,并且还允许您搭建自定义模型评估器。评估库用于衡量模型性能、模型公平性、模型鲁棒性和其他指标。

配置后,评估库将为每个配置的推理数据集生成一个包含指标集的数据集。

添加评估库

要配置评估库,点击选择评估库,选择一个评估库,然后配置该模型评估器预期的字段。对于列输入类型,建模目标将建议在任何评估数据集中可用的列。此外,您还可以添加预期的模型输出,以表示模型提交预期生成的列,如果您未在下拉菜单中看到建议或知道它将由模型变换生成。

添加预期模型输出

配置预期模型输出

最常见的预期模型输出类型是预测输出(通常命名为prediction)、概率输出(通常命名为probability_1)和置信评分。

配置评估子集

配置自动模型评估的一个非必填步骤是定义评估库用以生成指标的评估子集。评估子集是评估数据集中数据的一个子集,用于分别生成指标。评估子集的指标可以通过评估仪表盘单独分析。

评估子集有助于理解模型在特定输入数据组上的表现,因此可以用于改善模型的可解释性、可解释性和在潜在保护类中的公平性。评估子集可以在评估数据集的任何列上生成,因此不需要在模型变换的输入或输出上生成,例如模型特征或模型预测。

指标将始终针对每个评估数据集的"总体"子集的全部每一行生成。为自动指标生成配置进一步子集是非必填的。

添加评估子集

要配置评估子集,点击添加评估子集,并选择要为其创建子集的评估数据集列或预期模型输出。

添加评估子集

分类桶

如果您从评估子集中选择一个类型为字符串的字段,则在评估流水线搭建时,将为评估库中的每个唯一字符串值生成一个唯一子集。

定量桶

如果您从评估子集中选择一个数字类型的字段,您可以选择用于生成子集的定量分桶策略。桶可以是固定宽度的,也可以定义为特定的范围截止。这两种分桶策略创建的桶定义为:

  • 从并包括下限,以及
  • 到但不包括上限。

对于固定宽度桶,您必须提供一个起始值和一个桶宽度。将为所选字段范围的实体生成每个桶宽度的唯一子集,正负均包括在内。

范围截止将生成在您指定的所有值之间范围的子集。如果您没有覆盖所选字段的整个范围,可能会从列最小值到最低截止值和从最大截止值到列最大值生成两个附加桶。

警告

每个唯一子集都会与每个评估数据集和库一起评估。因此,生成大量子集可能会显著增加模型评估的搭建时间。

多字段子集

可以生成表示多个字段组合的子集。点击添加附加字段以选择多个列或预期模型输出来组合成一个单一子集。这将在字段之间的每个桶组合中创建一个子集。

定量分桶策略可以为每个子集字段唯一定义。

添加评估子集

查看评估子集预览

当您配置评估子集时,您将在页面右侧看到评估数据集的预览。该预览适用于您已配置的每个评估数据集,并可用于确定您的评估配置将生成多少评估子集。

查看评估子集预览

保存评估配置

点击页面右上角的保存配置以保存评估配置并返回评估仪表盘。