注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
Pipeline Builder 通过在变换中使用频繁模式增长(FP-Growth)算法的强大功能简化了频繁模式挖掘的过程。该算法使您能够轻松构建和管理挖掘工作流,并在大型数据集中发现有价值和频繁的模式。
频繁模式挖掘是一种数据挖掘技术,用于识别大型数据集中重复出现的模式或关联。频繁模式挖掘的主要目标是发现一起出现的项目或事件之间的关系,这些关系比偶然出现的频率更高。这些模式通常被称为频繁项集,可以帮助揭示数据中的隐藏关联和依赖关系,从而促进更好的决策和预测。
频繁模式挖掘可以在多个领域中应用,包括市场篮分析、推荐系统、生物信息学、网络流量分析、客户属性分析、可解释AI(XAI)等。通过识别频繁模式,组织可以获得宝贵的见解,提升他们的策略,并提高整体效率。
频繁模式挖掘在零售中的一个常见应用称为“市场篮分析”。使用 Pipeline Builder 频繁模式增长变换,您可以识别在同一交易中频繁出现的产品组合。
例如,超市可能拥有其客户过去购买(交易)的数据集。每笔交易包含一组一起购买的产品。以下是该类交易的简化示例数据集:
transaction_id | products_purchased |
---|---|
1 | [面包, 黄油, 牛奶] |
2 | [面包, 黄油] |
3 | [面包, 尿布, 啤酒] |
4 | [牛奶, 尿布, 啤酒, 黄油] |
5 | [面包, 黄油, 尿布] |
频繁模式增长变换将 Items column
和 Minimum support
值作为输入。在此示例中,products_purchased
列是项目列。由于输出中只会包含频繁模式,因此将 Minimum support
设置为0.6;变换将仅返回至少在60%交易中出现的模式。以下截图显示如何为此示例配置变换:
变换的输出数据集如下:
pattern | pattern_occurence | total_count |
---|---|---|
[面包] | 4 | 5 |
[黄油] | 4 | 5 |
[面包, 黄油] | 3 | 5 |
[尿布] | 3 | 5 |
在这种情况下,频繁模式挖掘揭示了面包
和黄油
经常一起出现在交易中(它们是一个频繁项集,在五笔交易中出现了三次)。这些信息可以用于推动各种业务策略,例如产品摆放(将面包和黄油放在一起以增加销售)或促销活动(购买面包时黄油打折,反之亦然)。
以上是一个简化的示例,展示了真实应用案例中发现的大型且更复杂的数据集;使用像 FP-Growth 这样的高效算法对于有效的频繁模式挖掘至关重要。