+

K

API 参考 ↗Send feedback

数据连接与集成构建管道Pipelines on unstructured data概览

注意：以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

概览

如在datasets的概览中讨论的那样，Foundry中的非结构化数据被存储为数据集中一系列文件，就像表格数据一样。

以下是一些在结构化和非结构化数据的管道中相同的功能：

管道可以增量化，以优化计算性能。
您可以针对您的管道编写单元测试。
计算输出数据集是通过搭建和计划完成的。
Foundry的管道安全性功能提供了强大的端到端安全保证。

与表格数据的管道的不同之处包括：

文档中的大多数指导和示例代码集中在处理数据帧，而数据帧不是用于非结构化数据的输入类型。
您必须使用底层文件系统API来读取和写入非结构化数据集中的文件。
因为非结构化数据集没有模式，一些专注于验证表格数据集行和列的功能不可用。
可以使用Spark并行处理非结构化文件，但API比数据帧处理的API更低级且更复杂。

要开始使用非结构化数据的管道，请参考Python和Java变换的相关文档部分：

一旦非结构化数据被清理和规范化，您可以使用代码工作簿来分析非结构化数据集并在Python和R中训练机器学习模型。了解更多关于代码工作簿中非结构化数据访问的信息。

PREVIOUSBest practices / 搭建生产流水线

NEXT为CSV或JSON文件推断架构