注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。

Pipeline Builder

如何在数据管道搭建中丢弃格式错误的CSV行以避免出错?

从数据集预览部分,使用 解析选项 -> 丢弃不规则行 功能以丢弃格式错误的行。

时间戳: 2024年3月1日

如何在单个变换中合并多个数据集而不合并不同的数据集对?

您可以将所有数据集连接到合并面板中,该面板接受无限数量的输入,或者您可以拖动选择所有输入,然后点击合并变换选项。

时间戳: 2024年4月11日

在使用LLM面板上调用LLM是否有批量操作,还是按行调用?

LLM是按行调用的,但操作在执行器上并行化以提高速度。

时间戳: 2024年3月28日

在Pipeline Builder中是否可以使用OCR从PDF中的图像提取文本?

可以,在Pipeline Builder中,您可以通过使用OCR(光学字符识别)提取方法从PDF中的图像提取文本。

时间戳: 2024年4月10日

当一行在配置的事件时间窗口之后到达时,“时间限定去重”函数会做什么?

时间限定去重 函数将丢弃任何在配置的事件时间窗口之后到达的行,无论它是否是重复的。

时间戳: 2024年3月20日

我可以用新数据集替换管道A的输出,然后让管道A的先前输出数据集成为另一个管道(管道B)的输出吗?确保所有管道输出模式相同?

可以,您可以在Pipeline Builder中用新的输出覆盖数据集,这是一个一次性操作,将现有数据集的所有权更改为新的输出。您可以配置所需的数据集作为管道B的输出,前提是您拥有必要的权限并遵循所需步骤。确保所有管道输出模式与输入变换节点模式匹配以避免出错并成功部署管道。

时间戳: 2024年4月13日

如何在Pipeline Builder中实现自定义用户定义函数(UDF)?

要在Pipeline Builder中实现自定义用户定义函数(UDF),请参考创建和使用UDF的文档以及如何在Pipeline Builder中运行任意Java代码。

时间戳: 2024年4月19日

如何为通过上传CSV文件构建的数据集添加行号?

您可以通过数据集预览中的编辑模式选项启用行号

时间戳: 2024年4月18日

如何在Pipeline Builder中将结构列转换为JSON字符串?

可以使用 JSON to string 表达式将结构列转换为JSON字符串。

时间戳: 2024年6月14日

为什么在Pipeline Builder中已部署数据集的预览行数与实际数据集视图之间存在差异?

如果在预览中应用了输入采样策略,可能会导致差异。此外,非确定性变换可能会导致行数变化。

时间戳: 2024年6月28日

如何清理由管道创建的检查点数据集?

将创建检查点数据集的管道移动到回收站,它也会将检查点数据集移动到回收站。

时间戳: 2024年4月24日

如何在Pipeline Builder管道中将null字符串值映射为特定字符串(例如,“无数据”)?

在Pipeline Builder管道中有两种方法可以实现:

  1. 使用 Coalesce 函数。例如,A = coalesce(A, "no data")。如果A为null,它将返回“无数据”。
  2. 使用 Case 面板。

这两种方法都允许将null值映射为指定字符串。

时间戳: 2024年7月11日

是否有方法对一组列中的null值进行填充?

可以使用 应用于多列 变换对不同列中的null值进行填充。

时间戳: 2024年4月24日