本体逻辑AIP Logic Evaluations创建评估套件

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

创建评估套件

评估套件是用于搭建给定AIP Logic函数性能基准的评估函数和测试用例的集合。要创建评估套件,您必须配置评估函数并定义将在评估套件运行期间传递给评估函数的测试用例。

请注意,一些评估功能(如从对象集中创建测试用例)在Logic运行面板中不可用,只能从评估应用程序中访问。有关Logic中的评估功能,请参阅Logic评估入门页面。此页面详细说明了评估应用程序中的功能。

如果您尚未直接从Logic运行面板添加测试用例,则需要在创建评估套件之前保存逻辑函数。保存后,您可以选择设置测试,这将引导您进入评估应用程序。

AIP Logic函数中的评估侧面板。

添加测试用例

在评估中,您可以使用对象集或手动定义来创建测试用例。要手动定义测试用例,请在右上角选择添加测试用例。为每个测试用例命名,并选择输入及其各自的预期值。实际输出值会自动包含在测试用例中,无需配置。

测试用例配置屏幕。

评估函数

评估函数是用于比较或评估Logic函数实际输出与预期输出的方法。您可以通过选择实际Logic函数输出值和预期输出值的参数来配置评估函数。根据评估函数,您可能需要配置其他参数。评估套件可以包括内置函数、市场部署函数或自定义评估函数。

内置评估函数

内置评估函数的示例包括:

  • 精确字符串匹配: 检查实际字符串是否与预期字符串完全相等。
  • 整数范围: 检查实际值是否在预期值范围内。仅支持整数。
  • 精确布尔匹配: 检查实际布尔值是否与预期布尔值完全相等。
  • 精确对象匹配: 检查实际对象是否与预期对象完全相等。
  • 浮点范围: 检查实际值是否在预期值范围内。所有数值类型均支持作为参数。
  • 时间范围: 检查实际值是否在预期值范围内。仅支持DateTimestamp值。

市场部署函数

选择市场部署函数将打开一个设置向导,引导您完成安装过程。以下是市场函数的示例,未来将有更多功能:

  • Rubric评分器: 一种通用的基于LLM的评估器,用于根据动态评分标准评估生成的文本。
  • ROUGE评分: 面向回忆的摘要评估替代(ROUGE)评分是一组用于评估机器生成文本质量的指标,特别是在摘要和翻译等任务中。较高的ROUGE评分表示与参考文本的匹配度更高,表明机器生成内容的性能更好。

自定义评估函数

自定义评估函数允许您选择先前发布的函数。这些可以是代码库中编写的对象上的函数或其他AIP Logic函数。目前,自定义评估函数必须返回布尔值或数值类型。

配置评估函数

要配置评估函数,请从评估套件右侧的配置面板中选择添加评估函数

一个新的评估套件。

您可以从一系列内置或市场部署函数中进行选择。您还可以选择自定义评估函数。

评估函数选择窗口。

生成指标字段允许您为评估指标仪表盘中显示的指标命名。例如,您可以将默认的"isExactMatch"重命名为对您的应用案例更具语义意义的名称,如"classificationIsCorrect"。

带有函数参数的评估函数配置面板。

按照上述方式配置您的函数后,它将在相应的评估套件中可用,并附加了测试用例。