笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——02. 关联规则挖掘

🕗 发布于 2024-11-18 06:21 笔记数据仓库数据挖掘

文章目录

$\textbf{1. }$ 基本概念
$\textbf{2. }$ 布尔关联规则
$\textbf{3. }$ 多层关联规则挖掘
- $\textbf{3.1. }$ 算法概述
- $\textbf{3.2. }$ 算法实例
$\textbf{4. }$ 多维关联规则挖掘

有关

\text{Github}

仓库，欢迎来

\text{Star}

$\textbf{1. }$ 基本概念

1️⃣关联规则挖掘

含义：从事务数据库中发现项集之间有趣的关联
定义：对于 $Y\text{⊆}I/X\text{⊆}T_i$ 且 $X\text{∩}Y\text{=}\varnothing$ ， $X\text{→}Y$ 表示既然 $T_i$ 中含 $X$ 则也(以一定支持/置信度)含 $Y$
集合含义示例
项集 $I$ $I\text{=}\left\{i_1, i_2, \cdots, i_m\right\}$ 超市中的所有商品
事务集 $D$ $D\text{=}\left\{T_1, T_2, \cdots, T_n\right\}$ 且 $T_i\text{⊆}I$ 所有交易( $T_i$ 为第 $i$ 次交易结算商品)
事务包含项集 $X$ $X\text{⊆}I$ 且 $X\text{⊆}T_i$ 每次交易所结算的(部分)商品

表示：
数学表示： $A\text{→}B\,\,[S,C]$ (当 $SC$ 都超过阈值时认为该规则强相关)
可视化图：

2️⃣规则度量

客观度量：
$\textbf{Item}$ 公式含义
支持度 $S(A\text{→}B)\text{=}P(A\text{∩}B)$ , $S(A)\text{=}P(A)$ 所有事务中，有多少事务同时含 $A B$ /含 $A$
置信度 $C(A\text{→}B)\text{=}\cfrac{P(A\text{∩}B)}{P(A)}$ 在包含 $A$ 的事务中，有多少同时还含 $B$

示例： $\text{ \large } \begin{array}{|c|c|} \hline \text{\small TID} & \text{\small Item} \\ \hline \small 2000 & \small A, B, C \\ \hline \small 1000 & \small A, C \\ \hline \small 4000 & \small A, D \\ \hline \small 5000 & \small B, E, F \\ \hline \end{array} \text{ ⇒ } \begin{cases} P(A) = \cfrac{3}{4} \\[5pt] P(A \cap B) = \cfrac{1}{4} \end{cases} \text{ ⇒ } A \to B \, \left[\cfrac{1}{4}, \cfrac{1}{3}\right]$

主观度量：个人常识/实际情况…

3️⃣关联规则/相关性/因果关系

关联规则/相关性
相关性衡量： $\text{Lift}(A,B)\text{=}\cfrac{P(A\text{∪}A)}{P(A)P(B)}\text{→}\begin{cases}\text{＜}1\text{→}AB负相关\\\\\text{=}1\text{→}AB无相关\\\\\text{>}1\text{→}AB正相关\end{cases}$
二者关系：强关联规则$\text{≠} $正相关

关联规则/因果关系：二者无关，但相关性有助于为发现因果关系提供线索

集合	含义	示例
项集 $I$	$I\text{=}\left\{i_1, i_2, \cdots, i_m\right\}$	超市中的所有商品
事务集 $D$	$D\text{=}\left\{T_1, T_2, \cdots, T_n\right\}$ 且 $T_i\text{⊆}I$	所有交易( $T_i$ 为第 $i$ 次交易结算商品)
事务包含项集 $X$	$X\text{⊆}I$ 且 $X\text{⊆}T_i$	每次交易所结算的(部分)商品

$\textbf{Item}$	公式	含义
支持度	$S(A\text{→}B)\text{=}P(A\text{∩}B)$ , $S(A)\text{=}P(A)$	所有事务中，有多少事务同时含 $A B$ /含 $A$
置信度	$C(A\text{→}B)\text{=}\cfrac{P(A\text{∩}B)}{P(A)}$	在包含 $A$ 的事务中，有多少同时还含 $B$

$\textbf{2. }$ 布尔关联规则

$\textbf{2.1. }$ 一些基本概念

1️⃣频繁项集

定义： $X$ 频繁 $\xLeftrightarrow{等价于}$ 事务集 $D$ 中含 $X$ 的 $T_i$ 数量( $X$ 支持度)超过阈值 $\xLeftrightarrow{等价于}X$ 满足最小支持度
性质：
如果 $X$ 频繁 $\text{→}X$ 的子集也一定频繁(向下封闭)
如果 $X$ 非频繁 $\text{→}X$ 的超集(如 ${X,x_{n+1},x_{n+2},...\}$ )也一定非频繁

2️⃣闭合集 $\&$ 最大集：为解决组合爆炸( $规则数目\text{ ∝ }2^{数据集规模}$ )问题

定义：对于事务集 $D$
集合含义意义
闭合集(模式) $X$ 闭合 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集的支持度小于 $X$ 的 $D$ 无损压缩
最大集(模式) $X$ 最大 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集都非频繁 $D$ 有损压缩

示例： $D\text{=}\left\{A_1\text{=}\left\langle a_1, a_2, \ldots, a_{100}\right\rangle,A_2\text{=}\left\langle a_1, a_2, \ldots, a_{50}\right\rangle\right\}$ ，最小支持度 $\text{=1}$
集合 $\textbf{Item}$
闭合模式 $A_1$ (支持度 $\text{=1}/$ 无频繁超集)， $A_2$ (支持度 $\text{=2/}$ 频繁超集支持度 $\text{=2}$ )
最大模式 $A_1$ (支持度 $\text{=1}/$ 无频繁超集)
所有模式所有的频繁子集，比如 $\left\langle a_1, \ldots, a_{49}\right\rangle$

$\textbf{2.2.}$ $\textbf{Apriori}$ 算法

0️⃣总论

原有方案：原始数据 $\xrightarrow{(暴力)生成}$ 关联规则
现有方案：原始数据 $\xrightarrow{\text{Apriori}算法}$ 频繁项集 $\xrightarrow{生成}$ 关联规则

1️⃣算法流程：原始数据 $\xrightarrow{\text{Apriori}算法}$ 频繁项集

初始化：事务 $D\xrightarrow{清洗}$ 单项 $\small\{\{\mathrm{T_1}\}, \{\mathrm{T_2}\},..., \{\mathrm{T_n}\}\}\xrightarrow{满足最小支持度}$ $L_1\text{=}\small\{\{\mathrm{T_{i_1}}\}, \{\mathrm{T_{i_2}}\},..., \{\mathrm{T_{i_m}}\}\}$
主循环：候选集 $L_1\xrightarrow{执行以下操作}$ 候选集 $L_2$ (下一轮循环)
组合：本轮频繁项集 $L_{1}\xrightarrow[(具体见例子)]{两两组合}$ 候选项集 $C_2$
剪枝：候选项集 $C_2\xrightarrow{去处有非频繁子集的项}$ 下一候频繁集 $L_2$ ，以进行下轮以此循环

输出：当循环到 $L_\alpha$ 为空集时停止循环，频繁项集 $L\text{=}\{L_1\text{∪}L_2\text{∪}...\text{∪}L_\alpha\}$

2️⃣频繁项集 $\xrightarrow{生成}$ 关联规则

基本流程：
子集：频繁项集 $L$ 所有非空子集 $S\text{=}\{S_1,S_2,...,S_{2^{|L|}-2}\}$ ，任意 $S_i\text{→}S_j$ 组合满足支持度
规则：对每个子集计算 $\ S i S_i\text{→}L\backslash{}S_i$ 的置信度，若小于阈值则视 $\ S i S_i\text{→}L\backslash{}S_i$ 强相关

效率优化：
原理：对 $(X\text{→}L\text{-}X)$ 置信度不满足阈值 $\xrightarrow{X^{\prime}\text{⊆}X}(X^{\prime}\text{→}L\text{-}X^{\prime})$ 也不满足
优化：先验证 $L\text{-}X$ 只有单一项的规则，若不满足则剪枝/满足则再去验证 $L\text{-}X$ 多项的规则

$\textbf{2.3.}$ $\textbf{Apriori}$ 算法示例

0️⃣基本条件：事务及其项集如下表，设定最小支持度为 $2$

$\small\textbf{T}$ $\small\textbf{Beer}$ $\small\textbf{Diap.}$ $\small\textbf{Powd}$ $\small\textbf{Bread}$ $\small\textbf{Umbre.}$ $\small\textbf{Milk}$ $\small\textbf{Deter.}$ $\small\textbf{Cola}$
$1$ ✅ ✅ ✅ ✅ ✅ ❌ ❌ ❌
$2$ ❌ ✅ ✅ ❌ ❌ ❌ ❌ ❌
$3$ ✅ ✅ ❌ ❌ ❌ ✅ ❌ ❌
$4$ ✅ ✅ ❌ ❌ ❌ ❌ ✅ ❌
$5$ ✅ ❌ ❌ ❌ ❌ ✅ ❌ ✅

1️⃣ $\text{Apriori}$ 算法：得到频繁项集

初始化： $L_1\xLeftarrow{出现超过两次的商品}\{\small\text{Beer,Diap,Powd,Milk}\}$
主循环：当前为 $L_1$
组合： $L_1 \xrightarrow{\text{简单两两组合}} C_2 \text{=} \left\{ \small {\begin{bmatrix} \text{Beer} \\ \text{Diap} \end{bmatrix}}, \cancel{\begin{bmatrix} \text{Beer} \\ \text{Powd} \end{bmatrix}}, \begin{bmatrix} \text{Beer} \\ \text{Milk} \end{bmatrix}, \begin{bmatrix} \text{Diap} \\ \text{Powd} \end{bmatrix}, \cancel{ \begin{bmatrix} \text{Diap} \\ \text{Milk} \end{bmatrix}}, \cancel{ \begin{bmatrix} \text{Powd} \\ \text{Milk} \end{bmatrix}} \right\}$
剪枝： $C_2\xrightarrow{剪掉包含非频繁子集的}L_2\text{=}\left\{ \small \begin{bmatrix} \text{Beer} \\ \text{Diap} \end{bmatrix}, \begin{bmatrix} \text{Beer} \\ \text{Milk} \end{bmatrix}, \begin{bmatrix} \text{Diap} \\ \text{Powd} \end{bmatrix} \right\}$

主循环：当前为 $L_2$
组合： $L_2 \xrightarrow[组合逻辑见下表]{\text{两两组合}} C_3\text{=}\left\{ \small \cancel{ \begin{bmatrix} \text{Beer} \\ \text{Diap} \\ \text{Milk} \\ \end{bmatrix}}, \cancel{ \begin{bmatrix} \text{Beer} \\ \text{Diap} \\ \text{Powd} \end{bmatrix}}\right\}$
合并的集条件: 二者有 $k\text{-1}$ 项(此处为 $1$ )相等操作
$L_2[1]/L_2[2]$ 共有 ${Beer}\text{→}$ 满足执行组合
$L_2[1]/L_2[3]$ 共有 ${Diap}\text{→}$ 满足执行组合
$L_2[2]/L_2[3]$ 不满足不执行组合

剪枝： $C_2\xrightarrow{剪掉包含非频繁子集的}L_3\text{=}\varnothing$ ，故终止循环

输出： $L\text{=}L_1\text{∪}L_2\text{=}\left\{ \small \text{Beer}, \text{Diap}, \text{Powd}, \text{Milk}, \begin{bmatrix} \text{Beer} \\ \text{Diap} \end{bmatrix}, \begin{bmatrix} \text{Beer} \\ \text{Milk} \end{bmatrix}, \begin{bmatrix} \text{Diap} \\ \text{Powd} \end{bmatrix} \right\}$

2️⃣生成规则 $\text{→ } \small \begin{array}{|c|c|c|c|} \hline \text{Item} & \text{Support(A,B)} & \text{Support A} & \text{Confidence} \\ \hline \text{Beer} \to \text{Diaper} & 60 \% & 80 \% & 75 \% \\ \hline \text{Beer} \to \text{Milk} & 40 \% & 80 \% & 50 \% \\ \hline \text{Diaper} \to \text{Powd} & 40 \% & 80 \% & 50 \% \\ \hline \text{Diaper} \to \text{Beer} & 60 \% & 80 \% & 75 \% \\ \hline \text{Milk} \to \text{Beer} & 40 \% & 40 \% & 100 \% \\ \hline \text{Powd} \to \text{Diaper} & 40 \% & 40 \% & 100 \% \\ \hline \end{array} \text{ etc.....}$

集合	含义	意义
闭合集(模式)	$X$ 闭合 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集的支持度小于 $X$ 的	$D$ 无损压缩
最大集(模式)	$X$ 最大 $\xLeftrightarrow{等价于}X$ 频繁 $\text{∩}X$ 所有超集都非频繁	$D$ 有损压缩

集合	$\textbf{Item}$
闭合模式	$A_1$ (支持度 $\text{=1}/$ 无频繁超集)， $A_2$ (支持度 $\text{=2/}$ 频繁超集支持度 $\text{=2}$ )
最大模式	$A_1$ (支持度 $\text{=1}/$ 无频繁超集)
所有模式	所有的频繁子集，比如 $\left\langle a_1, \ldots, a_{49}\right\rangle$

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅

合并的集	条件: 二者有 $k\text{-1}$ 项(此处为 $1$ )相等	操作
$L_2[1]/L_2[2]$	共有 ${Beer}\text{→}$ 满足	执行组合
$L_2[1]/L_2[3]$	共有 ${Diap}\text{→}$ 满足	执行组合
$L_2[2]/L_2[3]$	不满足	不执行组合

$\textbf{3. }$ 多层关联规则挖掘

$\textbf{3.1. }$ 算法概述

1️⃣基本概念

概念分层：按层次组织的数据(一般概念 $\xrightarrow{\text{高层→低层}}$ 具体概念)，正符合事务数据库的存储

规则示例：高层规则 (计算机 $\text{→}$ 电器)，低层规则 (台式机 $\text{→}$ 打印机)

2️⃣每层最小支持度的设定

方法描述特点
一致所有曾的最小支持度一致忽略底层(地层支持度一般较低)
递减层次越低 $\text{→}$ 最小支持度越低保留底层罕见但有意义的规则
分组专家指重点项集 $\text{→}$ 由此设置每层不同最小支持度 $\text{N/A}$

3️⃣分层挖掘：

含义：在多个抽象层挖掘关联规则 $\text{→}$ 在不同的抽象层进行转化
性质：(支持度的传播)父节点支持度 $\text{≥}$ 其子节点支持度，且根结点的支持度为 $100\%$
策略：(自顶向下)具体步骤看例子
最高层：用 $\text{Apriori}$ 寻找高层频繁项集 $+$ 过滤事务集
向下迭代：传递过滤后事务集到下一层，继续用 $\text{Apriori}$ 寻找高层频繁项集 $+$ 过滤事务集
终止：迭代到层次(子节点)时停下

$\textbf{3.2. }$ 算法实例

0️⃣基本情况：

概念分层：
分层表示最大支持度
第一层(顶层) $\text{\{1**, 2**, 3**, 4**\}}$ 等 $4$
第二层(中层) $\text{\{11*, 12*, 21*, 22*\}}$ 等 $3$
第三层(低层) $\text{\{111, 121, 211, 713\}}$ 等 $3$

事务集：第 $i$ 位表示在第 $i$ 层的分类，如 $524$ 表示在高/中/低层分属第 $5$ /第 $2$ /第 $4$ 类
$\textbf{TID}$ 底层中层顶层
$\text{T1}$ $\{\text{111,121,211,221}\}$ $\{\text{11*,12*,21*,22*}\}$ $\{\text{1**, 2**}\}$
$\text{T2}$ $\{\text{111,211,222,323}\}$ $\{\text{11*,21*,22*,32*}\}$ $\{\text{1**, 2**, 3**}\}$
$\text{T3}$ $\{\text{112,122,221,411}\}$ $\{\text{11*,12*,22*,41*}\}$ $\{\text{1**, 2**, 4**}\}$
$\text{T4}$ $\{\text{111,121}\}$ $\{\text{11*,12*}\}$ $\{\text{1**}\}$
$\text{T5}$ $\{\text{111,122,211,221,413}\}$ $\{\text{11*,12*,21*,22*,41*}\}$ $\{\text{1**, 2**, 4**}\}$
$\text{T6}$ $\{\text{211,323,524}\}$ $\{\text{21*,32*,52*}\}$ $\{\text{2**, 3**, 5**}\}$
$\text{T7}$ $\{\text{323,411,524,713}\}$ $\{\text{32*,41*,52*,71*}\}$ $\{\text{3**, 4**, 5**, 7**}\}$

1️⃣顶层的 $\text{Apriori}$ 算法：最小支持度为 $4$

初始化：
初始频繁集： $L(1,1)\text{=}\{\text{\{1**\},\{2**\}}\}\xLeftarrow{得到}$ 筛选出 $\{i\text{**}\}$ 中支持度大于 $5$ 的
表过滤： $L (1, 1)$ 中项的子节点必定以 $1/2$ 开头，故滤掉以其它开头的
$\textbf{TID}$ 当前事务表 $\textbf{T[1]}$ 滤后事务表 $\textbf{T[2]}$
$\text{T1}$ $\{\text{111,121,211,221}\}$ $\{\text{111,121,211,221}\}$
$\text{T2}$ $\{\text{111,211,222,323}\}$ $\{\text{111,211,222}\}$
$\text{T3}$ $\{\text{112,122,221,411}\}$ $\{\text{112,122,221}\}$
$\text{T4}$ $\{\text{111,121}\}$ $\{\text{111,121}\}$
$\text{T5}$ $\{\text{111,122,211,221,413}\}$ $\{\text{111,122,211,221}\}$
$\text{T6}$ $\{\text{211,323,524}\}$ $\{\text{211}\}$
$\text{T7}$ $\{\text{323,411,524,713}\}$ $\{\varnothing\}$

主循环：当前为 $L (1, 1)$
组合： $\xrightarrow{\text{简单两两组合}} C(1,2) \text{=}\{\text{\{1**,2**}\}\}$
剪枝： $C(1,2)\xrightarrow[滤无可滤]{依据\text{T[2]}减去包含非频繁子集的}L(1,2) \text{=}\{\text{\{1**,2**}\}\}$ (不可再组合故循环结束)

输出：第一层频繁集 $L(1)\text{=}\{\text{\{1**\},\{2**\}},\text{\{1**,2**}\}\}$ ；将滤后事务表 $T [2]$ 传给下一层

2️⃣中层的 $\text{Apriori}$ 算最小支持度为 $3$ 法：

初始化：
初始频繁集： $L(2,1)\text{=}\{\text{\{11*\},\{12*\},\{21*\},\{22*\}}\}\xLeftarrow{得到}$ 筛出 $\{ij\text{*}\}$ 中支持度大于 $3$ 的
事务表过滤： $L (2, 1)$ 中项的子节点必定以 $11/12/21/22$ 开头，滤掉以其他开头的
$\textbf{TID}$ 当前事务表 $\textbf{T[2]}$ 滤后事务表 $\textbf{T[3]}$
$\text{T1}$ $\{\text{111,121,211,221}\}$ $\{\text{111,121,211,221}\}$
$\text{T2}$ $\{\text{111,211,222}\}$ $\{\text{111,211,222}\}$
$\text{T3}$ $\{\text{112,122,221}\}$ $\{\text{112,122,221}\}$
$\text{T4}$ $\{\text{111,121}\}$ $\{\text{111,121}\}$
$\text{T5}$ $\{\text{111,122,211,221}\}$ $\{\text{111,122,211,221}\}$
$\text{T6}$ $\{\text{211}\}$ $\{\text{211}\}$
$\text{T7}$ $\{\varnothing\}$ $\{\varnothing\}$

主循环：当前为 $L (2, 1)$
组合： $\xrightarrow[]{\text{两两组合}} C(2,2) \text{=}\{\text{\{11*,12*}\},\{\text{11*,21*}\}.....\}$
剪枝： $\xrightarrow[]{\text{依据 T[3] 减去包含非频繁子集的}} L(2,2) \text{=} \left\{ \begin{array}{l} \{\text{11*, 12*}\} \\ \{\text{11*, 21*}\} \\ \{\text{11*, 22*}\} \\ \{\text{12*, 22*}\} \\ \{\text{21*, 22*}\} \end{array} \right\}$

主循环：当前为 $L (2, 2)$
组合： $\xrightarrow[]{\text{两两组合}} C(2,3) \text{=}\{\text{\{11*,12*,21*}\},\{11*,12*,22*\}.....\}$
剪枝： $\xrightarrow[]{\text{依据 T[3] 减去包含非频繁子集的}} L(2,3) \text{=} \left\{ \begin{array}{l} \{\text{11*,12*,22*}\} , \{\text{11*,21*,22*}\} \end{array} \right\}$

主循环：当前为 $L (2, 3)$
组合： $\xrightarrow[]{\text{两两组合}} C(2,4) \text{=}\{\text{\{11*,12*,21*,22*}\}\}$
剪枝： $\xrightarrow[]{\text{依据 T[3] 减去包含非频繁子集的}} L(2,4) \text{=}\varnothing\text{ → }$ 停止循环

输出：第二层频繁集 $L(2)\text{=}\{L(2,1)\text{∪}L(2,2)\text{∪}L(2,3)\}$ ；将滤后事务表 $\text{T[3]}$ 传到下一层

3️⃣底层的 $\text{Apriori}$ 算最小支持度为 $3$ 法：

初始化：
初始频繁集： $L(3,1)\text{=}\{\text{\{111\},\{211\},\{221\}}\}\xLeftarrow{得到}$ 筛选出 $\{ijk\text{}\}$ 中支持度大于 $3$ 的
事务表过滤：接下来只考虑 $\{\text{\{111\},\{211\},\{221\}}\}$ 中的，故滤掉其他的
$\textbf{TID}$ 当前事务表 $\textbf{T[3]}$ 滤后事务表 $\textbf{T[4]}$
$\text{T1}$ $\{\text{111,121,211,221}\}$ $\{\text{111,,211,221}\}$
$\text{T2}$ $\{\text{111,211,222}\}$ $\{\text{111,211}\}$
$\text{T3}$ $\{\text{112,122,221}\}$ $\{\text{221}\}$
$\text{T4}$ $\{\text{111,121}\}$ $\{\text{111}\}$
$\text{T5}$ $\{\text{111,122,211,221}\}$ $\{\text{111,211,221}\}$
$\text{T6}$ $\{\text{211}\}$ $\{\text{211}\}$
$\text{T7}$ $\{\varnothing\}$ $\{\varnothing\}$

主循环：当前为 $L (3, 1)$
组合： $\xrightarrow[]{\text{两两组合}} C(3,2) \text{=}\{\text{\{111,211}\},\text{\{111,221}\},\text{\{211,221}\}\}$
剪枝： $\xrightarrow[]{\text{依据 T[4] 减去包含非频繁子集的}} L(3,2) \text{=}\text{\{111,221}\}\text{ → }$ 无法再组合(停止循环)

输出：第一层频繁集 $L(1)\text{=}\{\text{\{111\},\{211\},\{221\}},\text{\{111,221}\}\}$

方法	描述	特点
一致	所有曾的最小支持度一致	忽略底层(地层支持度一般较低)
递减	层次越低 $\text{→}$ 最小支持度越低	保留底层罕见但有意义的规则
分组	专家指重点项集 $\text{→}$ 由此设置每层不同最小支持度	$\text{N/A}$

分层	表示	最大支持度
第一层(顶层)	$\text{\{1, 2, 3, 4\}}$ 等	$4$
第二层(中层)	$\text{\{11, 12, 21, 22\}}$ 等	$3$
第三层(低层)	$\text{\{111, 121, 211, 713\}}$ 等	$3$

$\textbf{TID}$	底层	中层	顶层
$\text{T1}$	$\{\text{111,121,211,221}\}$	$\{\text{11,12,21,22}\}$	$\{\text{1, 2}\}$
$\text{T2}$	$\{\text{111,211,222,323}\}$	$\{\text{11,21,22,32}\}$	$\{\text{1, 2, 3**}\}$
$\text{T3}$	$\{\text{112,122,221,411}\}$	$\{\text{11,12,22,41}\}$	$\{\text{1, 2, 4**}\}$
$\text{T4}$	$\{\text{111,121}\}$	$\{\text{11,12}\}$	$\{\text{1**}\}$
$\text{T5}$	$\{\text{111,122,211,221,413}\}$	$\{\text{11,12,21,22,41*}\}$	$\{\text{1, 2, 4**}\}$
$\text{T6}$	$\{\text{211,323,524}\}$	$\{\text{21,32,52*}\}$	$\{\text{2, 3, 5**}\}$
$\text{T7}$	$\{\text{323,411,524,713}\}$	$\{\text{32,41,52,71}\}$	$\{\text{3, 4, 5, 7}\}$

$\textbf{TID}$	当前事务表 $\textbf{T[1]}$	滤后事务表 $\textbf{T[2]}$
$\text{T1}$	$\{\text{111,121,211,221}\}$	$\{\text{111,121,211,221}\}$
$\text{T2}$	$\{\text{111,211,222,323}\}$	$\{\text{111,211,222}\}$
$\text{T3}$	$\{\text{112,122,221,411}\}$	$\{\text{112,122,221}\}$
$\text{T4}$	$\{\text{111,121}\}$	$\{\text{111,121}\}$
$\text{T5}$	$\{\text{111,122,211,221,413}\}$	$\{\text{111,122,211,221}\}$
$\text{T6}$	$\{\text{211,323,524}\}$	$\{\text{211}\}$
$\text{T7}$	$\{\text{323,411,524,713}\}$	$\{\varnothing\}$

$\textbf{TID}$	当前事务表 $\textbf{T[2]}$	滤后事务表 $\textbf{T[3]}$
$\text{T1}$	$\{\text{111,121,211,221}\}$	$\{\text{111,121,211,221}\}$
$\text{T2}$	$\{\text{111,211,222}\}$	$\{\text{111,211,222}\}$
$\text{T3}$	$\{\text{112,122,221}\}$	$\{\text{112,122,221}\}$
$\text{T4}$	$\{\text{111,121}\}$	$\{\text{111,121}\}$
$\text{T5}$	$\{\text{111,122,211,221}\}$	$\{\text{111,122,211,221}\}$
$\text{T6}$	$\{\text{211}\}$	$\{\text{211}\}$
$\text{T7}$	$\{\varnothing\}$	$\{\varnothing\}$

$\textbf{TID}$	当前事务表 $\textbf{T[3]}$	滤后事务表 $\textbf{T[4]}$
$\text{T1}$	$\{\text{111,121,211,221}\}$	$\{\text{111,,211,221}\}$
$\text{T2}$	$\{\text{111,211,222}\}$	$\{\text{111,211}\}$
$\text{T3}$	$\{\text{112,122,221}\}$	$\{\text{221}\}$
$\text{T4}$	$\{\text{111,121}\}$	$\{\text{111}\}$
$\text{T5}$	$\{\text{111,122,211,221}\}$	$\{\text{111,211,221}\}$
$\text{T6}$	$\{\text{211}\}$	$\{\text{211}\}$
$\text{T7}$	$\{\varnothing\}$	$\{\varnothing\}$

$\textbf{4. }$ 多维关联规则挖掘

1️⃣多维关联规则

含义：涉及两个或多个维或谓词的关联规则
示例：<Age: 30..39> and <Married: Yes> -> <NumCars: 2>
$\small \begin{array}{|c|c|c|c|} \hline \text{RecordID} & \text{Age} & \text{Married} & \text{NumCars} \\ \hline 100 & 23 & \text{No} & 1 \\ \hline 200 & 25 & \text{Yes} & 1 \\ \hline 300 & 29 & \text{No} & 0 \\ \hline 400 & 34 & \text{Yes} & 2 \\ \hline 500 & 38 & \text{Yes} & 2 \\ \hline \end{array}$

2️⃣处理思路

处理对象：搜索频繁项集 $\xrightarrow{转为}$ 搜索频繁谓词集
量化预处理：数值型关联规则挖掘 $\xrightarrow{转化}$ 布尔型关联规则挖掘，如下例子
$\small \begin{array}{|c|c|c|c|} \hline \text{RecordID} & \text{Age} & \text{Married} & \text{NumCars} \\ \hline 100 & 23 & \text{No} & 1 \\ \hline 200 & 25 & \text{Yes} & 1 \\ \hline 300 & 29 & \text{No} & 0 \\ \hline 400 & 34 & \text{Yes} & 2 \\ \hline 500 & 38 & \text{Yes} & 2 \\ \hline 600 & 45 & \text{No} & 3 \\ \hline 700 & 50 & \text{Yes} & 1 \\ \hline 800 & 60 & \text{No} & 0 \\ \hline \end{array}$

3️⃣处理算法： $\text{ARCS}$ 大致流程

分箱：根据数据的分布，将数值属性离散化到箱(固定区间)
搜索：找出频繁谓词集，得到一系列强关联规则(如下)
$\text{RuleSet =}\begin{cases} \text{age}(X, 35) \text{∧} \text{income}(X, 31K \ldots 40K) \text{⇒} \text{buys}(X, \text{TV}) \\\\ \text{age}(X, 34) \text{∧} \text{income}(X, 41K \ldots 50K) \text{⇒} \text{buys}(X, \text{TV}) \\\\ \text{age}(X, 35) \text{∧} \text{income}(X, 41K \ldots 50K) \text{⇒} \text{buys}(X, \text{TV}) \end{cases}$

聚类：将所得强关联规则映射到 $2 D$ 栅格上，得到范围矩形

$\text{RuleSet}\text{→}\text{age}(X,34\text{-}35) \text{∧} \text{income}(X, 31K\text{-}40K) \text{⇒} \text{buys}(X, \text{TV})$

原文地址：https://blog.csdn.net/qq_64091900/article/details/143841041

免责声明：本站文章内容转载自网络资源，如本站内容侵犯了原著者的合法权益，可联系本站删除。更多内容请关注自学内容网（zxcms.com）！

上一篇：QT中使用图表之QChart绘制柱状图
下一篇：【LeetCode热题100】字符串

使用docker安装RocketMQ
v /docker/rocketmq/data/namesrv/logs:/root/logs | 把容器内的/root/logs日志目录挂载到宿主机的 /docker/rocketmq/data/n
阅读更多2024-12-02
Y20030025基于php+mysql的幼儿健康管理系统设计与实现源代码配置文档
在信息化时代的浪潮中，幼儿健康管理面临着前所未有的挑战与机遇。为了更好地满足家长和幼儿园对幼儿健康管理的需求，我们致力于开发一套基于PHP的幼儿健康管理系统。这一系统的开发，旨在通过技术手段提升幼儿健
阅读更多2024-12-02
Github 2024-12-01 开源项目月报 Top20
根据Github Trendings的统计，本月(2024-12-01统计)共有20个项目上榜。
阅读更多2024-12-02
Redis中常见的延迟问题
使用复杂度高的命令，执行命令时就会耗时存储大key：如果一个key写入的数据非常大，Redis在分配内存、删除大key时都会耗时，并且持久化AOF的写回策略是always时会影响Redis性能集中过期
阅读更多2024-12-02
C#VB.NET开发整体一键国际化显示
-------------------------------项目启动根据设置的语言加载对应语言内容进行显示。---------------------------翻译完毕后多语言系统进行语言编译生成
阅读更多2024-12-02
数据结构-简单排序
【代码】数据结构-简单排序。
阅读更多2024-12-02
亚马逊IP关联是什么？
亚马逊IP关联是指在亚马逊平台上使用的IP地址或IP地址段被认定为相关联，可能导致一些特定的限制或操作问题。这种关联通常是由于多个账户或操作在同一IP地址下进行，或者存在多个操作被认为有关联的迹象，可
阅读更多2024-12-02
前端入门指南：模块打包器是什么？模块打包器的工作原理与实践
在前端开发的生态系统中，随着项目复杂度和规模的不断提升，代码管理和优化变得至关重要。模块化开发作为一种有效的代码组织方式，极大地提升了代码的可维护性和复用性。然而，面对大量的模块和复杂的依赖关系，如何
阅读更多2024-12-02
vue3项目中使用星火API
通过阅读文档可知我们需要返回给api接口的数据需要authorization，然后对话内容需要设置message设置role为user则content的内容是使用者的提问。在node环境epxress
阅读更多2024-12-02
当你访问一个网站时，数据是怎么传输的呢
电脑访问网站时数据的传输过程是一个涉及多个层次、多种协议以及众多网络设备协同工作的复杂体系。从域名解析开始，到 HTTP 请求构建、各层协议的封装、数据在网络中的传输，再到服务器端的处理和响应返回，每
阅读更多2024-12-02

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅

笔记分享: 西安交通大学COMP551705数据仓库与数据挖掘——02. 关联规则挖掘

文章目录

1. \textbf{1. } 1. 基本概念

2. \textbf{2. } 2. 布尔关联规则

2.1. \textbf{2.1. } 2.1. 一些基本概念

2.2. \textbf{2.2.} 2.2. Apriori \textbf{Apriori} Apriori算法

2.3. \textbf{2.3.} 2.3. Apriori \textbf{Apriori} Apriori算法示例

3. \textbf{3. } 3. 多层关联规则挖掘

3.1. \textbf{3.1. } 3.1. 算法概述

3.2. \textbf{3.2. } 3.2. 算法实例

4. \textbf{4. } 4. 多维关联规则挖掘

相关文章

$\textbf{1. }$ 基本概念

$\textbf{2. }$ 布尔关联规则

$\textbf{2.1. }$ 一些基本概念

$\textbf{2.2.}$ $\textbf{Apriori}$ 算法

$\textbf{2.3.}$ $\textbf{Apriori}$ 算法示例

$\textbf{3. }$ 多层关联规则挖掘

$\textbf{3.1. }$ 算法概述

$\textbf{3.2. }$ 算法实例

$\textbf{4. }$ 多维关联规则挖掘

$\small\textbf{T}$	$\small\textbf{Beer}$	$\small\textbf{Diap.}$	$\small\textbf{Powd}$	$\small\textbf{Bread}$	$\small\textbf{Umbre.}$	$\small\textbf{Milk}$	$\small\textbf{Deter.}$	$\small\textbf{Cola}$
$1$	✅	✅	✅	✅	✅	❌	❌	❌
$2$	❌	✅	✅	❌	❌	❌	❌	❌
$3$	✅	✅	❌	❌	❌	✅	❌	❌
$4$	✅	✅	❌	❌	❌	❌	✅	❌
$5$	✅	❌	❌	❌	❌	✅	❌	✅