注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
将 Foundry 连接到 Google Pub/Sub,以实时读取主题中的数据到 Foundry 流。
功能 | 状态 |
---|---|
探索 | 🟢 一般可用 |
流同步 | 🟢 一般可用 |
流导出 | 🟢 一般可用 |
连接器不会解析消息内容,任何类型的数据都可以同步到 Foundry。所有内容都会上传到 data
列中,未解析。使用下游流变换(例如,在 Pipeline Builder 中的 parse_json
)来解析数据。id
列将显示从 Pub/Sub 接收到的消息 ID。
id (字符串) | data (字符串) |
---|---|
5986331692832221 | {"firstName": "John", "lastName": "Doe"} |
5986326266478130 | test-payload |
设置同步时,Foundry 中数据集的模式必须匹配上述模式。
连接器使用单个消费者线程从 Pub/Sub 同步消息。当从 Foundry 导出数据到 Pub/Sub 时,每个 Foundry 数据流分区使用一个线程。
流同步基于 Foundry 中的输出数据集创建一个订阅。凭据必须具有创建订阅的权限。如果配置了多个导入从同一个主题读取,它们每个都会创建自己的订阅并读取主题上的所有消息。
流同步旨在成为一致的、长时间运行的任务。任何对流同步的中断都可能导致停机,具体取决于预期结果。
在 Foundry 中设置流同步之前,请考虑以下事项:
了解更多关于在 Foundry 中设置连接器的信息。
选择两种可用的认证方法之一:
GCP 实例帐户: 请参阅 Google Cloud 文档 ↗ 了解如何设置基于实例的认证。
服务帐户密钥文件: 请参阅 Google Cloud 文档 ↗ 了解如何设置服务帐户密钥文件认证。密钥文件可以作为 JSON 或 PKCS8 凭据提供。
配置的凭据必须具有以下访问权限:
roles/pubsub.viewer
roles/pubsub.subscriber
projects.subscriptions.create
roles/pubsub.publisher
Pub/Sub 连接器提供以下配置选项:
选项 | 必需? | 描述 |
---|---|---|
Project ID | 是 | GCP 中项目的 ID。 |
Credentials settings | 是 | 按照上述认证指南进行配置。 |
Proxy settings | 否 | 启用以允许代理连接到 Pub/Sub。 |
GRPC Settings | 否* | 用于配置 GRPC 通道的高级设置。 |
在 设置流同步 教程中了解如何设置与 Pub/Sub 的同步。
设置同步时,数据集的模式必须匹配上述数据模型部分中描述的模式。
连接器支持通过 Data Connection 将流导出到 Pub/Sub。
要导出到 Pub/Sub,首先启用导出用于 Pub/Sub 连接器。然后,创建新导出。
选项 | 必需? | 默认 | 描述 |
---|---|---|---|
Topic | 是 | N/A | 您要导出的 Pub/Sub 主题。 |
Value Column | 否 | N/A | 如果此处未指定值,Foundry 流记录的整个内容将作为字符串写入 Pub/Sub。如果指定,则只有 Value Column 的内容将导出到 Pub/Sub。 |