设置流式同步

同步是从源读取特定数据并将其摄入Foundry的任务。例如，如果您有一个包含多个表的关系数据库源，您可以配置同步以将特定表摄入Foundry。

流式同步类似于非流式（即批处理或增量）同步，但存在一些差异。主要区别在于批处理或增量同步会定期运行，而流式同步会持续运行，以尽可能低的延迟将数据拉入Foundry。

下面，我们将讨论创建同步所需的步骤：

在本教程中，我们将使用一个Kafka源来设置同步。

第1部分：定义数据

首先，决定您想同步到Foundry的数据。在Data Connection中选择您的流式源，然后选择右上角的可用操作：

如果您的源类型支持源浏览，您将进入Data Connection中的浏览源页面，该页面显示可同步的数据。浏览视图界面取决于您使用的源类型。例如，Kafka源浏览允许您查看Kafka代理上的主题 ↗并预览这些主题中包含的数据。

在Kafka浏览视图中，您可以在页面左侧的列表中查看现有主题。

选择一个主题将让您预览该主题的数据样本。

接下来，您需要决定将同步的数据集保存到Foundry中的位置。数据集的位置将决定谁有权限访问生成的数据集，这基于项目级别权限。

我们建议将同步的数据集保存到其源所在的项目旁边，使它们具有相同的权限；匹配的数据集和源权限在创建数据管道时非常有用。了解更多关于数据管道推荐的项目结构。

选择同步位置后，点击右上角的创建流式同步。

现在，您将进入Data Connection中的同步创建页面，您可以在此为您的同步定义源特定和核心流式配置。

接下来，选择您流的吞吐量。吞吐量决定将创建的分区数量。选择较多的分区数量可以实现更高的吞吐量。选择正常吞吐量将允许该流达到5 MB/s。

然后指定输入数据的模式，默认情况下从源推断，但如有必要可以覆盖。

配置同步后，选择右上角的创建同步。

现在您的同步已创建，您将进入概览选项卡。

现在，您可以运行同步。选择概览选项卡以查看新同步的摘要，包括输出数据集、位置和可用操作。

点击开始以开始将外部流的数据同步到Foundry。

要查看流数据，请导航到您在创建同步时配置的流以查看流预览页面。您应该可以看到记录从Kafka主题流入流中。

现在您已成功运行同步，学习如何调试失败的流，通过基于推送的摄取将数据推入流，或将您的流集成到Ontology。