注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
在Pipeline Builder中,唯一ID有助于数据的跟踪、处理和分析,确保每条记录都可以被单独识别和正确处理。因此,通常需要为记录创建唯一标识符(ID)。本节解释了为什么使用单调递增ID不是最佳方法,以及为什么生成唯一ID的首选方法是字符串列的连接和SHA256哈希。
生成唯一ID的最佳方法是将输入数据中的字符串列连接起来,然后对连接的字符串创建SHA256哈希。
要在Pipeline Builder中使用此方法生成唯一ID,请在Pipeline Builder变换路径中按照以下步骤操作:
这种方法有几个优点:
通过使用字符串列的连接和SHA256哈希,您可以生成可扩展、安全和一致的唯一ID,使其成为数据管道应用程序的理想选择。
虽然Pipeline Builder不支持单调递增ID,但它们常常被熟悉Spark的数据工程师使用。单调递增ID按顺序生成,如1, 2, 3,依此类推。虽然这种方法本身具有简单性,但它有几个缺点:
这些缺点表明,使用单调递增ID不是生成数据管道应用程序中唯一标识符的最佳方法。相反,如前一节所述,我们建议使用字符串列的连接和SHA256哈希。
请注意,这在搭建或预览之间将不一致。如果不能确定一组唯一列,此方法应作为绝对最后的选择。
如果您没有一组定义数据中唯一行的列,您可以使用随机数的哈希来创建ID。要以这种方式创建ID,请在Pipeline Builder变换路径中按照以下步骤操作: