数据连接与集成构建管道Pipelines on unstructured data概览

注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

概览

如在datasets的概览中讨论的那样,Foundry中的非结构化数据被存储为数据集中一系列文件,就像表格数据一样。

以下是一些在结构化和非结构化数据的管道中相同的功能:

  • 管道可以增量化,以优化计算性能。
  • 您可以针对您的管道编写单元测试。
  • 计算输出数据集是通过搭建计划完成的。
  • Foundry的管道安全性功能提供了强大的端到端安全保证。

与表格数据的管道的不同之处包括:

  • 文档中的大多数指导和示例代码集中在处理数据帧,而数据帧不是用于非结构化数据的输入类型。
  • 您必须使用底层文件系统API来读取和写入非结构化数据集中的文件。
  • 因为非结构化数据集没有模式,一些专注于验证表格数据集行和列的功能不可用。
  • 可以使用Spark并行处理非结构化文件,但API比数据帧处理的API更低级且更复杂。

要开始使用非结构化数据的管道,请参考Python和Java变换的相关文档部分:

一旦非结构化数据被清理和规范化,您可以使用代码工作簿来分析非结构化数据集并在Python和R中训练机器学习模型。了解更多关于代码工作簿中非结构化数据访问的信息