数据仓库作业 5:第 8 章 关联规则挖掘
目录
- 第8章 关联规则挖掘
- 作业题
第8章 关联规则挖掘
作业题
1、设4-项集 X = { a , b , c , d } X=\{a,b,c,d\} X={a,b,c,d},试求出由 X X X 导出的所有关联规则。
解:
首先生成项集的所有非空真子集。这包括:
{
a
}
,
{
b
}
,
{
c
}
,
{
d
}
\{a\},\{b\},\{c\},\{d\}
{a},{b},{c},{d}
{
a
,
b
}
,
{
a
,
c
}
,
{
a
,
d
}
,
{
b
,
c
}
,
{
b
,
d
}
,
{
c
,
d
}
\{a,b\},\{a,c\},\{a,d\},\{b,c\},\{b,d\},\{c,d\}
{a,b},{a,c},{a,d},{b,c},{b,d},{c,d}
{
a
,
b
,
c
}
,
{
a
,
b
,
d
}
,
{
a
,
c
,
d
}
,
{
b
,
c
,
d
}
\{a,b,c\},\{a,b,d\},\{a,c,d\},\{b,c,d\}
{a,b,c},{a,b,d},{a,c,d},{b,c,d}
对于每个非真空子集,生成相应的关联规则。一般地,对于子集 { A } \{A\} {A},关联规则的形式是 { X } ⇒ { X − A } \{X\}\Rightarrow\{X-A\} {X}⇒{X−A},其中 X − A X-A X−A 表示项集 X X X 中不包含在 A A A 中的项。
下面是所有可能的关联规则:
{ a } ⇒ { b , c , d } , { b } ⇒ { a , c , d } , { c } ⇒ { a , b , d } , { d } ⇒ { a , b , c } , \{a\}\Rightarrow\{b,c,d\},\{b\}\Rightarrow\{a,c,d\},\{c\}\Rightarrow\{a,b,d\},\{d\}\Rightarrow\{a,b,c\}, {a}⇒{b,c,d},{b}⇒{a,c,d},{c}⇒{a,b,d},{d}⇒{a,b,c},
{ a , b } ⇒ { c , d } , { a , c } ⇒ { b , d } , { a , d } ⇒ { b , c } , { b , c } ⇒ { a , d } , { b , d } ⇒ { a , c } , { c , d } ⇒ { a , b } , \{a,b\}\Rightarrow\{c,d\},\{a,c\}\Rightarrow\{b,d\},\{a,d\}\Rightarrow\{b,c\},\{b,c\}\Rightarrow\{a,d\},\{b,d\}\Rightarrow\{a,c\},\{c,d\}\Rightarrow\{a,b\}, {a,b}⇒{c,d},{a,c}⇒{b,d},{a,d}⇒{b,c},{b,c}⇒{a,d},{b,d}⇒{a,c},{c,d}⇒{a,b},
{ a , b , c } ⇒ { d } , { a , b , d } ⇒ { c } , { a , c , d } ⇒ { b } , { b , c , d } ⇒ { a } \{a,b,c\}\Rightarrow\{d\},\{a,b,d\}\Rightarrow\{c\},\{a,c,d\}\Rightarrow\{b\},\{b,c,d\}\Rightarrow\{a\} {a,b,c}⇒{d},{a,b,d}⇒{c},{a,c,d}⇒{b},{b,c,d}⇒{a}
这些规则代表了项集导出的所有可能的关联规则。
2、设有交易数据库如下表1所示,令MinS=0.3,试用Apriori算法求出其所有的频繁项集。
T i d T_{id} Tid | 顾客id | 购买商品 | 购买日期 |
---|---|---|---|
t 1 t_1 t1 | c 01 c_{01} c01 | { a , b } \{a,b\} {a,b} | 2015.03.01 |
t 2 t_2 t2 | c 02 c_{02} c02 | { c , b , d } \{c,b,d\} {c,b,d} | 2015.03.01 |
t 3 t_3 t3 | c 01 c_{01} c01 | { c } \{c\} {c} | 2015.03.03 |
t 4 t_4 t4 | c 02 c_{02} c02 | { b , d } \{b,d\} {b,d} | 2015.03.03 |
解:
因为最小支持度 M i n S = 0.3 MinS=0.3 MinS=0.3,事务数据库有4条记录, M i n S p t N = 0.3 × 4 = 1.2 MinSptN=0.3\times4=1.2 MinSptN=0.3×4=1.2,所以最小支持数 M i n S p t N = 2 MinSptN=2 MinSptN=2。
如下表,候选频繁1-项集 C 1 C_1 C1和频繁1-项集 L 1 L_1 L1:
如下表,候选频繁2-项集
C
2
C_2
C2和频繁2-项集
L
2
L_2
L2:
得所有的频繁项集为
L
=
L
2
=
{
{
b
,
d
}
}
L=L_2=\{\{b,d\}\}
L=L2={{b,d}}。
3、对如表1所示的交易数据库,令MinC=0.6,试在习题2所得频繁项集的基础上,求出所有的强关联规则。
解:
由题可知,最小置信度
M
i
n
C
=
0.6
MinC=0.6
MinC=0.6,
C
o
n
f
i
d
e
n
c
e
(
{
b
}
⇒
{
d
}
)
=
S
u
p
p
o
r
t
(
{
b
,
d
}
)
S
u
p
p
o
r
t
(
{
b
}
=
2
3
≈
0.67
>
0.6
Confidence(\{b\}\Rightarrow\{d\})=\frac{Support(\{b,d\})}{Support(\{b\}}=\frac{2}{3}\approx0.67>0.6
Confidence({b}⇒{d})=Support({b}Support({b,d})=32≈0.67>0.6
C
o
n
f
i
d
e
n
c
e
(
{
d
}
⇒
{
b
}
)
=
S
u
p
p
o
r
t
(
{
b
,
d
}
)
S
u
p
p
o
r
t
(
{
d
}
=
2
2
=
1
>
0.6
Confidence(\{d\}\Rightarrow\{b\})=\frac{Support(\{b,d\})}{Support(\{d\}}=\frac{2}{2}=1>0.6
Confidence({d}⇒{b})=S