【第十五章：Sentosa_DSML社区版-机器学习之关联规则】

🕗 发布于 2024-09-24 07:41 机器学习 人工智能 低代码数据分析

15.1 频繁模式增长

15.2 PrefixSpan

【第十五章：Sentosa_DSML社区版-机器学习之关联规则】

机器学习关联规则是一种用于发现数据集中项之间有趣关系的方法。它基于统计和概率理论，通过分析大量数据来识别项之间的频繁共现模式。

15.1 频繁模式增长

1.算子介绍

频繁模式增长算子(FPGrowth)是通过构造频繁模式树的方式，可以通过较少的对数据集的遍历来构造频繁项集或频繁项对，根据输入的数据A，按照关联程度大小，得出与A关联最深的数据集。

2.算子类型

机器学习/关联规则算子

3.算子属性说明

属性	页面显示名称	选项	类型	默认值	约束规则	属性说明
mode_select	模式选择	必选	String	listMode	[list模式,多条模式]	选择算法模式
items_col	物品列	必选	String	null	单选：输入数据集的所有列	列名
min_confidence	最小置信度	必填	Double	0.8	[0.0,1.0]	生成关联规则的最小置信度
min_support	最小支持级别	必填	Double	0.3	[0.0,1.0]	频繁模式的最小支持级别，任何超出(minSupport *数据集大小)次数的模式都将在频繁项目集中输出
skip_null_value	是否跳过空值	必填	Boolean	是	单选：是，否	是否跳过空值

4.算子使用介绍

（1）算子初始化

参考公共功能算子初始化操作

（2）算子属性设置

频繁模式增长算子属性设置如图所示

频繁模式增长算子属性设置

频繁模式增长多条模式属性设置示意图

（3）算子的运行

通过数据源算子读取数据，后续可以接任意个数据处理算子，然后接一个频繁模式增长算子，然后执行运行。

频繁模式增长算子流

执行算子流操作示意图

算子的运行结果再添加一个图表算子即可执行

频繁模式增长算子运行结果

如下图可点击查看模型信息

查看模型信息操作示意图

在模型信息中可以查看该算子的频繁项集

查看频繁项集示意图

15.2 PrefixSpan

1.算子介绍

PrefixSpan算法的目标是挖掘出满足最小支持度的频繁序列。PrefixSpan算法由于不用产生候选序列，且投影数据库缩小的很快，内存消耗比较稳定，作频繁序列模式挖掘的时候效果很高。PrefixSpan和fp-growth 类似也是基于分治的思想，其基于前缀将原有数据进行投影，并不断地将前缀进行组合并输出满足最小支持度的模式。

2.算子类型

机器学习/关联规则。

3.算子属性说明

属性	页面显示名称	选项	类型	默认值	约束规则	属性说明
minSupport	最小支持级别	用户输入	Double	0.1	(0,1)	最低支持级别的参数。出现次数超minSupport*数据集size 次的序列模式被识别为频繁序列模式。
maxPatternLength	最大模式长度	单选	Integer	10	[2,100]	序列模式的最大长度。
index	Index列	单选	String	null	DataModel里的Continuous的Column	用来排序的列
Key	Key列	单选	String	null	DataModel里的Categorical的column	类别列
event	事件列	单选	String	null	DataModel里的Categorical的Column	事件列

4.算子使用介绍

（1）算子初始化

参考公共功能算子初始化操作。

（2）算子属性设置

PrefixSpan算子的属性设置如图所示

PrefixSpan属性设置示例

（3）算子的运行

通过数据源算子读取数据，中间可以接任意个数据处理算子，然后接一个PrefixSpan算子，后可接任意个数据处理算子。如下为使用举例：

1）通过数据读入算子读取需要处理的数据。

2）连接一个PrefixSpan算子。

3）编辑PrefixSpan 算子，key列为类别列，index列为排序列，event列为“事件列”，其他参数可参考默认值设置。

连接一个表格算子，运行，如图所示

运行PrefixSpan示例

最终评估结果示例

可得到所有满足支持度要求的频繁序列集和频度

为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术，推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点，能够与其他数据科学家和机器学习爱好者交流心得，分享经验和解决问题。文章最后附上官网链接，感兴趣工具的可以直接下载使用

Sentosa_DSML社区版

Sentosa_DSML算子流开发视频

原文地址：https://blog.csdn.net/qq_45586013/article/details/142451646

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：ControllerAdvice定义统一异常处理
下一篇：图像分割【1】mask标签

实验5：网络设备发现、管理和维护
通过实验，掌握Cisco 路由器和交换机的IOS配置管理。自动从NTP服务器获取时间信息。能够利用TFTP服务器实现路由器和交换机配置文件的备份和恢复。同时验证CDP协议和LLDP协议的网络参数。完成
阅读更多2024-11-14
Linux解决 -bash: nc: command not found&-bash: nc: 未找到命令
正在安装 : 2:nmap-ncat-6.40-19.el7.x86_64 2/2。--> 正在处理依赖关系 libpc
阅读更多2024-11-14
Threejs 材质贴图、光照和投影详解
1. 材质和贴图材质（Material）定义了物体表面的外观，包括颜色、光泽度、透明度等。贴图（Textures）是应用于材质的图像，它们可以增加物体表面的细节和真实感。1.1材质类型不受光照影响的基
阅读更多2024-11-14
Database Advantages (数据库系统的优点)
数据库系统通过提供数据完整性、数据安全性、减少冗余、数据独立性、高效访问、并发控制、备份恢复、可扩展性以及多用户视图等功能，极大地提高了数据管理和操作的效率，使得数据的存储、管理和访问更加可靠和便捷。
阅读更多2024-11-14
Eureka、Zookeeper 与 Nacos：服务注册与发现功能大比拼
在实际的项目选型中，需要综合考虑业务对数据一致性、可用性的要求，项目的技术生态环境、性能预期以及未来的扩展性等多方面因素，谨慎地选择最适合自身业务特点的服务注册与发现框架，这样才能为分布式微服务架构的
阅读更多2024-11-14
Android OpenGL ES详解——立方体贴图
当一个立方体的中心位于原点(0，0，0)的时候，它的每一个位置向量也就是以原点为起点的方向向量。方向向量触碰到立方体表面的一点也就是立方体贴图的纹理位置，这意味着只要立方体的中心位于原点上，我们就可以
阅读更多2024-11-14
Docker Compose部署Kafka（非Zookeeper）
整个工具的代码都在Gitee或者Github地址内。
阅读更多2024-11-14
【SPIE出版，EI稳定检索】2024年信号处理与神经网络应用国际学术会议（SPNNA 2024，12月13-15日）
2024年信号处理与神经网络应用国际学术会议（SPNNA 2024）将于2024年12月13日至15日在中国武汉召开。本次会议旨在为全球研究人员、工程师、学者和行业专业人士提供一个分享最新研究成果、技
阅读更多2024-11-14
MYSQL 库，表基本操作
1.对将要存储的数据进行编码2.对将要执行的操作（增删查改）数据是对数据编码的校验，本质也是一种读取数据库中数据库采用的一种编码格式。
阅读更多2024-11-14
什么是‌‌‌‌‌‌Swift，有什么特点？
Swift是苹果公司于 2014 年推出的编程语言，旨在替代 Objective-C 成为 iOS、iPadOS、macOS、watchOS 和 tvOS 应用开发的主要语言。Swift 结合了 C
阅读更多2024-11-14

【第十五章：Sentosa_DSML社区版-机器学习之关联规则】