注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
如您在保护数据基础中所见,各个项目中的数据访问可以由项目所有者管理。这就是所谓的自主访问控制 ↗。然而,当涉及敏感数据时,需要一个更强大、更集中的访问控制模型。
在我们的示例中,我们有一个概念性数据集,包含乘客出生日期(DOBs),这些构成了个人身份信息 (PII)。我们可能希望严格控制此类 PII,并确保此数据仅对那些已完成 PII 培训的人可访问。我们可以使用权限标记来解决这个问题。
权限标记是 Foundry 对强制访问控制 ↗的实现。一个权限标记代表一种数据类型(例如 PII),并指定一组用户或群组可以访问。当权限标记应用于一个数据集时,没有访问该标记的用户将绝对无法访问该数据,即使项目所有者试图与他们共享。重要的是,这种限制会传播到平台中从该数据集派生出的任何数据。
这个功能对于数据治理非常强大,使数据保护官员能够集中管理和审计谁可以访问某一类别的数据。
在我们向最终用户介绍我们的应用程序之前,我们希望确保保护敏感数据。同样在我们的示例中,我们有乘客出生日期(DOBs),我们希望在数据管道中锁定。
我们需要创建一个权限标记类别,也就是一组权限标记的名称。在这种情况下,创建一个“信息”类别,因为未来可能需要其他相关的权限标记(例如,个人健康信息或 PHI)。创建类别后,您可以创建 PII 权限标记。然后,您可以将有权限查看 PII 数据的人添加为权限标记的成员,并将管理员团队添加为权限标记的管理者。
权限标记具有沿数据沿袭传播的强大功能。因此,将新标记应用于现有管道可能会意外锁定下游用户,因此最好始终模拟将标记应用于我们的管道以查看其传播位置。为此,请打开管道的数据沿袭并打开模拟模式。您可以编辑raw/passengers数据集上的权限标记并应用您创建的 PII 权限标记。然后,您将看到应用 PII 权限标记时将受到影响的所有下游数据集。
我们不希望所有数据的消费者都必须拥有 PII 访问权限,因此我们希望在管道的某个阶段删除敏感的 DOB 列。为此,我们应该点击管道,查看在何处最适合删除 PII 权限标记。通常,这通过在选择数据集时打开底部的预览视图来完成,以便我们可以查看数据和列。
在我们的概念性示例中,我们可以看到 PII 权限标记一直传播到 Ontology 数据集,这会锁定所有没有 PII 访问权限的终端用户。因此,我们决定最好是在管道中尽可能长时间地保留敏感数据,但在乘客数据的 Ontology 版本中删除“dob”列(即*/Sky Industries/Customer Metrics [Ontology]/passengers*)。
在数据沿袭视图中,点击Customer Metrics [Ontology]/passengers数据集,点击代码,然后点击在存储库中查看。这将打开用于创建此概念性数据集的代码存储库。在代码存储库中,您将需要1)创建一个分支,2)删除敏感列(即删除dob
列),3)从输入数据集中移除即将继承的 PII 权限标记,然后4)创建拉取请求。我们建议查看关于如何移除继承的标记和组织的文档。
在我们的同事批准停止传播 PII 权限标记的拉取请求后,我们需要搭建此数据集及其下游的一切,以便最新的数据集事务都“停止传播”即将添加的标记。此外,涉及 APPEND 或 UPDATE 事务类型时需要特别注意。但在我们的示例中,一切都被搭建为 SNAPSHOT,这是 Foundry 中的默认事务类型。
在应用权限标记之前,我们想要仔细检查它将传播到我们预期的数据集而不传播到其他数据集。为此,再次打开管道的数据沿袭视图,打开模拟模式,在raw/passenger数据集上应用权限标记,并确认ontology/passenger数据集不受影响。这意味着上一节中的停止传播逻辑已正确应用。
现在您准备好应用权限标记,如下图所示的概念性数据。为此,请转到raw/passenger数据集,打开安全助手,并应用权限标记。一旦您点击保存,PII 权限标记将立即应用并立即向下游传播。您可以通过查看数据沿袭并查看现在具有权限标记的数据集上的标记徽章来看到这一点。您已成功保护您的敏感 PII 数据。