安全敏感数据扫描器创建匹配条件

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

创建匹配条件

敏感数据扫描器附带了一组内置匹配条件;您也可以定义自己的自定义匹配条件以用于敏感数据扫描器。

内置匹配条件

敏感数据扫描器提供了一系列内置匹配条件,以检测常见类型的个人身份信息(PII),例如社会安全号码、电子邮件地址或电话号码。您可以通过选择右侧边栏中的箭头展开内置匹配条件部分来找到这些条件:

内置匹配条件侧边栏。

内置匹配条件旨在检测常见类型的个人数据。然而,其效果因您的特定数据结构和格式而异。确保这些条件符合您独特的数据标准,必要时可能需要创建自定义条件。如果您有其他问题,请咨询您的数据保护官。

创建自定义匹配条件

要为您的空间创建自定义匹配条件,有两种方法可以起始:

  • 从敏感数据扫描器默认位置。
  • 在创建敏感数据扫描时。

在默认位置,选择匹配条件侧边栏中列出的自定义匹配条件上方的添加

在默认位置创建匹配条件。

在创建敏感数据扫描时,在选择匹配条件页面上,您还可以通过选择创建新匹配条件来创建新的匹配条件,并立即在您的扫描中使用它。

在扫描创建页面上创建匹配条件。

这两个起始点都会打开相同的匹配条件创建过程。在这里,您可以选择创建正则表达式(Regular expression)匹配条件,或重叠(Value overlap)匹配条件

“创建匹配条件”模式。

创建正则表达式匹配条件

在创建正则表达式(regex)匹配条件时,您可以指定两种类型的正则表达式选项:内容正则表达式和列名正则表达式。

  • 内容正则表达式: 敏感数据扫描器将根据数据集的内容(而非数据集的列名)检查的正则表达式。
  • 列名正则表达式: 敏感数据扫描器将根据数据集的列名(而非内容本身)检查的正则表达式。

敏感数据扫描器允许您结合这两种正则表达式选项以获得最大特异性:

  • 如果内容正则表达式匹配,则突出显示数据集。
  • 如果列名正则表达式匹配,则突出显示数据集。
  • 如果同时匹配内容和列名正则表达式,则突出显示数据集。
  • 如果任一内容或列名正则表达式匹配,则突出显示数据集。

指定您要使用的正则表达式。

内容正则表达式包含一个非必填的内容阈值字段,您可以在其中指定一个大于0且小于或等于100的数字;此内容阈值是特定数据集中某列中必须匹配内容正则表达式的单元格的百分比,以便该数据集被突出显示为匹配。内容阈值字段是非必填的。如果未指定值,则如果内容正则表达式至少有一个匹配,敏感数据扫描器将突出显示数据集为匹配。

使用AIP生成正则表达式

如果为您在Foundry中的注册启用了AIP,您还可以在AI的帮助下指定内容正则表达式。您可以通过使用AI生成正则表达式按钮来实现这一点。选择此按钮将提示您描述要检测的敏感数据类型,例如“所有电子邮件地址”,向您展示与建议的正则表达式匹配的示例,然后生成可在应用程序中使用的正则表达式。下图演示了此过程。

显示正则表达式匹配条件的LLM。

创建重叠匹配条件

重叠匹配条件在寻找无法简化为正则表达式的敏感数据时非常有用。例如,为名字创建内容正则表达式可能很困难,尽管在某些情况下创建列名正则表达式可能足够。然而,如果您已经有一个包含要扫描的敏感数据的详尽列表的数据集,则重叠匹配条件可能会很有用。

下图是选择特定列的示例。在此示例中,accounts_with_context数据集的EL_employee_name列被设置为我们将匹配其他数据的重叠列。如果重叠列中的任何单元格与另一个数据集中的任何其他单元格匹配,则该其他数据集将被突出显示为此匹配条件的匹配。

重叠数据集和重叠列选择。