Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )
74
mue c u a C ớ'I H S ir A rth u r
M ark
C o n a n D oyle
T w ain
D
T
C ỏc
Jane
A g a th a
C h ristie
A lớste n
A
c
CS DL
Transcation Items
1
A C TW
P. G .
W o c ie h o u se
w
C ỏ c tõp m u e phtớ b iởn v ỏ i m in su p p -5 0 %
S u p p o rt
I te m s e ts
100% (6)
c
2
C DW
3
ACTW
4
A C OW
5
AC DTW
67% (4)
6
C DT
50% <3)
83% <5>
w. cw
A, O, T, AC, AW
CD, CT. ACW
AT, DW, TW, ACT, ATW
CDW, CT W, ACTW
Hinh 3.1 : C SD L bỏn sch minh hoa cho tõp mue pho bien dúng.
Tõp Xc: I goớ l tõp mue v lõp Y e T goi l tõp cỏc dinh danh tid.set . De
thuõn tiờn, ta ki hiờu tõp mue ( A, C, W} l ACW v tõp dinh danh {2,4,5} l 245.
Dỷ hụ tro cua tõp mue X, ki hiờu l supp(X), l sụ' cỏc tỏc vu trong do no xuõt
hitn. Tõp mue X l phụ biờh nờ'u dụ hụ tro cỹanụ supp(X)> minsupp.
Mot luõl kột hop l biộu thực Xj
X 2 , dú XĂv X2 l cỏc tõp mue v X ( r\
X2- 0 - Dụ hụ trg cỹu luAt l supp( XĂ u X2) v dụ tin cõy l p=supp( X f U X2)/
sujpp{ X , ) . Mụt luõt l tin cõy nờ'u p> minconf.
Kột nụù Galois:
Gia su 8 c I x T l quan hờ nhi phõn- CSDL cho khai ph luõt kột hop. X c l
v Y ỗT. Cỏc ỏnh xa:
t : I T , t
>
i : T - > l , t ( Y ) = { x e l/V y e Y , xụyj
dinh nghùa mụt kột nụ'i Galois giffa cỏc tõp cú thự tuf P(I) v P(T) (l tõp cỏc tõp con
cỹa I v T). Hùnh 3.2.a minh hoa hai ỏnh xa.
75
,n
u
C ỏ c t ỏ c v
Cỏc mc
X
)
W
Y
n w
1
i
b) Toỏn
Hỡnh 3.2: a)Kớ ni Gaois
t dúng Round-trip
t(X) l tp tt c cỏc tỏc v ( tidset) cha tp mc X, tng t i(Y) l tp mc c
cha trong tt c cỏc tỏc v Irong Y. Vớ d: ớ(ACW)=tl345 v (245)=CDW.
t(X)= n x ô X t(x) v i(Y)= n y e Y i( y ) , v ớ d; t(ACW) = t(A)
123456 n 12345 = 1345. Cng vy, i(245) - i(2) n i(4)
r\ t(C) r\ t(W) as 1345
n i(5) = CDW n
ACDW
o ACDTW = CDW,
Kt ni Galois tho món cỏc ớnh ch sau:
(1) X, C
x 2 => t(X,)
3 t(X2). Vớ d: ACW c ACTW , ta cú t(ACW) = 1345
=2135 =t(ACTW).
(2) Y,c Y2
i(Y l) 2 ỡ (Y2). V ớ d: 245 s 2456 , ta cú i(245>= C D W a CD=
i(2456)
(3) X C i(t(X)) v Y c t(i(Y)). Vớ d: AC C i(t(AC)) = i{1345) = ACW.
Xỏc nh Cj,(X)= i o t(X) a i(t(X ằ v c= t o i(Y) = t(ỡ(Y)) ( tc l cỏc ỏnh x
hp) thỡ; cu : P(I) -> P(I) v c ,i: P(T)
P(T) c hai u i cỏc toỏn t úng trờn cỏc
tp mc v cỏc tp nh danh. Ngi ta gi i o t v t o i l roun-trip. Hỡnh 3.2.b
minh ho round-trip ny bt u vi tp mc X.
Toỏn t úng v tp úng:
Cho tp hp
s, hm c: P(S) P(S) gi l toỏn t úng trờn s nu vi mi X,
ằ
Y C s , c tho món cỏc tớnh cht sau:
[. M
r n g (e x te n s io n ): X C
c{X).
76
2. i iu ( monoợonicity): nu X ầ Y lili c(X) c c(Y).
3. Khụng lóng (Icmpotency) : c(c(X)) = C(X).
Tp con X ca s gi l úng nu c(X) = X.
Hỡnh 3.3 v 3.4 minh ho cỏc tp mc ph bin v lp mc ph bin dúng.
C tõỡ c 19 tp mc ph bin vi minsupp = 50% c t chc thnhdncựng
vi
tp nh danh idset ca nú v ? lp úớtg nhõn c bng cỏch ly hpca cỏc lp
mc ph bin cú cựng (p d till (lanh. Trong cỏc lp dúng cú 2 tp mc ph bin cc
di l ACTW v CDW. Vớ d ch ra rng: nu <7 l tp mc ph bin, & ! tp
úng, v M l lp ph bin cc i thỡ a cú: M Q ờ Ê <7
tỡm tp X cú lp ph bin khng ta tỡm tp úng nh nht cha X. Nu
khụng ln ti tp ny thỡ X khụng phi tp ph bin. Vớ d: kim tra ATW cú ph
bn khng chỳng ta tim c ACTW l tp úng nh nht cha nú, do ú ATW l
tp ph bin v cú cựng tn xul nh ACTW. Mt khỏc, DT l khụng ph bin vỡ
khụng cú tp ph bin ng no cha nú.
Hỡnh 3.3 : Cỏc tp mc ph bin
77
Cho bt k tp mc úng X no u tn ti mt tp nh danh úng Y m
Y=t(X) v X=i(Y) ( ngc li cho b't k tp dinh anh úng no cng ln li mt
78
lp mc dúng tng ng), Mi cp tp mc úng v tp nh (lanh iún dc gi l
mt khỏi nim concept).
Khỏi nim x ( X Y| l khỏi nim con ca x 2 X Y2 c vit l
X, X Y, < x 2 X Y2 nu X, ầ x 2 ( tng ng nu Y 2c Y ).
Tp cỏc tp mc ph bin úng nh hn rt nhiu so vi tp cỏc tp irtc ph
bin. Phộp hi v phộp luyn trờn cỏc khỏi nim c xỏc nh nh sau:
Phộp tuyn:
Phộp hi : (X, X Y, ) A ( x 2 X Y2 ) = ( X, n x ) X c,Ă( Y, u Y2)
Vớ d: (ACDW X 45 ) V ( CDT X 56 ) = ci( ( ACDW
ACDTW X 5.
(ACDW X 45 ) A ( CDT X 56 ) = ( ACDW n C U T ) X cti( 45 o 56)= CD X
c,j(456)= CT) X 2456.
Ta xỏc nh h ỡr ca tp úng X hay khỏi nim XxY l s cỏc phn t
ca tp dnh anh úng Y=t(X), tc l: supp(X)= I Y I t(X) I . Tp mc úng hay
khỏi nim dc gỡ l ph bin nu li tr ca nú ớt nht bng minsupp. HèI113.4
ó ch ra tt c cỏc khỏi nim ph bin vi minsupp = 50% ( tc l s cỏc phn t
ca tp nh danh ớt nht l 3}
f)nh lý 1 : h tr cựa tp mc X bt k bng h tr ca toỏn t úng ca nú,
lc : suppKX)- supp(cu(X)),
Chng minh: h tr ca tp mc X l s cỏc rỏc v ú nú xut hin, tc l s
phn l
c a Lp
nh danh t(X), supp(X)
=
t ( X) i . VI supp(ch(X))= I t(cĂ,(X)) I,
chng minh nh lý ta phi ch ra l t(X)= t(eĂ,(X)).
Vi C l toỏn l úng, nú tho món tớnh m rng t(X) ầ c(j(t(X)) =
j,
Z
i(i(t(X)))=t(cil(X)), Do ú t(X) C t(ci((X)) , Mt khc C cng l toỏn l úng, X ầ
j,
csl(X) suy ra t(X) 2 t(cu(X)) do tớnh cht ca kt ni Galois, Suy ra 1{X) = l{c(i{X})
nh lý ny cho thy tl c cỏc tp mc ph bin c xỏc nh duy nht bi
cỏc tp mc úng ( hoc cỏc khỏi nim ph bin). Hn na, tp cỏc tp mc ph
79
bin dúng nhũ hn lp cỏc tp Ănc ph bin, v c bit nhũ hu (rong trng
hp cỏc d liu dy ( dense) . Mỡnh ho cho iu ny cú th thy trong V d trn:
I
ch cú 7 lp mc ph bin úng trong khi ú cú 19 tp mc ph bin. Vớ ny cho
Ihy rừ ớch li ca khai phỏ cỏc lut kt hp ng,
4.2 SINH LUT:
Ta nhc li, lut kt hp l biu Ihc cú dng X) -> p x 2 , ú: Xj , x 2 ỗ l .
h tr ca nú bng |t(XĂvj x 2)| v tin cy cựa nú l p= t(XU x 2}| / |t(X |)[.
Chỳng ta quan tỏm ằ cỏc lut cú h Ir ln hn hoc bng h tr cc tiu
minsupp v tin cy ln hu hoc bng tin cy cc tiu minconf.
Sụ' cỏc lut kt hp tỡm c cú th rt ln , Nu mt tp mc ph bin cú k
mc thỡ nú cú th sinh ra ti 2k-2 lut ( hm m cựa chiu di ca tp mc ph bin),
do dú cỏc lp mc ph bin cng ln thớ sụ' ut cú th sinh ra cng ln.
Tuy nhiờn ngi ta ó ch ra rng khụng cn thit khai phỏ cỏc iut t tt c
cỏc tp mc ph bin bi vỡ cú rt nhiu lut trong ú l tha, ch cn khai phỏ cỏc
lut sinh ra ỡ cỏc tp mc ph bin úng.
nh lý 2: Lut X,
x 2 tng ng vi lut cit(Xj) ->* cit(X2) , ú paq,
Chng minh: Theo nh ý 1 trờn h tr ca p mc X bng h tr cựa tp
mc dúng ca nú ci((X ) . Vy ta cú
f e ( A 'i) u M ,* a ) ) | __ \ K d i(X )n tM X - 2 ))\ _ |
"
m m
n te i
' ..M51
_
Nh vy cú nhiu tp mc ph bin ỏnh x ti cung mt tp mc ph bin
úng. Gi s S| cú n tp mc v tp cỏc toỏn t úng ca nú i C|, s 2 cú m tp mc
v tp toỏn t úng l c 2, ngi ta ch ra rng cú n, m-1 lut gia hai tp mc khụng
dúng sinh trc tip t S| ti s, l khng cn thit. Tt c chỳng tng ng vi lut
c,-> pc 2. Mn na, cú m . n -1 lut sinh trc tip t s 2 ti S| l cng khụng cn Ihit
v chỳng tng ng vi lut C2-ằ 1 C| . Vớ d: xem hỡnh 3.4 trờn, ta thy cỏc tp
1
mc D v C ỏnh x li tp mc dúng CD, cỏc tp mc w v c w ỏnh x túi lp
úng cw . Cỏc lut D~ằ 1/4 w , D -ằ^4 c w , CD -ằ,V w tng ng vi lut gia
4
hai lp úng CD->va cw . Mt khỏc, xộr cỏc lut w v /5 D , W-ằ-V CD , C W -*V I)
5
S
80
lng dng vi lut cw~ằvs CD. Ta nờn ch a n ngi dựng cỏc lut ulng quỏt
nlỡl ( cỏc lut khỏc l dc bit iin, chỳng cha Ihờm 1 hoc nhiu hn cỏc mc
phn tin hoc kt lun), lc l cỏc lut:D
w v W D. Nh vy s dng
>ớ/5
cỏc tp ph bin úng ta sinh ra 2 lut thay cho 8 lul nh vớ d trờn. Th nghim
trờn CSD. v cỏc ioớ nm, vi minsupp=lO%, ngi ta tỡm c 574513 tp mc
ph bin, trong ú ch cú 4897 lp mc ph bin úng, gp hn 100 ln.
4.3 THUT TON CHARM:
Da trụn c s lý thuyt v tp úng nhiu tỏc gi ó phỏt trin cỏc thut ioỏn
tỡm tp mc ph bin úng v lut kt hp khỏ hiu qu. ó cú nhiu thut toỏn
c gii thiu. Trong phn ny số trỡnh by thut toỏn CHARM, mt thul toỏn
mi v hiu qu tỡm tp mc ph bin úng.
Thut ton CHARM [19] (hc hin
duyt
trn c khụng gian cỏc tp mc v
khụng gian cỏc tp nh danh ( tidset). Thut toỏn trỏnh c vic tớnh toỏn tỡm
(t c cỏc tp con cú th ca tp mc dúng khi tỡm cỏc tp dúng, hiu qu hn lin
chin lc
t ỡ m t i lờ n ( b o t t o m - u p ) .
Tớnh cht
n y l q u a n
trng
t r o n g k ia i p h ỏ
cỏc CSDL dy vi cỏc lp mc ph bin di. Duyl qua c khng gian lp mc v
khng
g ia n
cỏc
l p d in h
(lanh cho
p h ộ p th u t to ỏ n
CHARM s
phng
dng m t
phỏp lỡm kim mi, b qua ằhiu mc lỡm tp ph bin úng thay cho phi lớnh
nliiu lp con khng úng. Hn na, thut (oỏn CHARM s dng hai chin lc lia:
t a c ỏ c n g c n u t p c o n c a n ú k h ụ n g p h b i n n g
ihi
ta c ỏ c
nhỏnh
d a tr ụ n
lớnh cht khụng úng ( noil closure property), bt k tp mc khụng úng no du b
l ia .
Cui
c ự n g , th u t
toỏn CHARM
k h ụ n g s d n g c u MC l i u
cõy bm
( hash
Iretớ), phộp toỏn c s c s dng l hp hai tp mc v giao hai tp nh danh.
Hỡnh 3,5 l dn cỏc tp con dy cho CSDL hỡnh3.L í tng ca thut
toỏn CHARM l duvt trờn cỏc nỳt cựa dn d kim tra xem nỳt con cú phỏi l tp
ph bin khụng, Tt c cỏc tp khụng ph bin cng nh cỏc nhỏnh khng phi tp
úng u b ta. Mi nỳt con ca mt nỳt c kl hp vúi cỏc nỳt con khỏc cựng
mc. Vớ d trong hỡnh 3,5 , A kt hp vi c, D , T v w to ra cỏc con AC, AD,
AT v AW. Thut toỏn CHARM thc hin tỡm kim theo chiu sõu trụn cỏc dn
con.
81
Gi s cho bt k tp mc X no ta u tỡm c cp tidsei t(X) ( lp nh
anh cỏc tỏc v cha X) v ngc li cho bt k tp tỡdset Y no ta u tỡm c tp
mc i(Y) ca n. Thut toỏn CHARM tớnh tt c cỏc khỏi nim ph bin t CSDL
vo. Nhc li, mt khỏi nim l cp X X Y trong ú X=i(Y) l tp mc úng v
Y=t{X) l tp nh danh úng. Chỳng ta cú th bt u duyớ cỏc khỏi nim trong
khụng gian cỏc tp mc hoc khng gian tp nh danh, Tuy nhiờn, s cỏc mc nh
hn nhiu s cỏc tỏc v v vỡ ta quan tõm n cỏc tp mc úng, ta bt u tỡm vi
cỏc mc n v cỏc tidset kt hp ca chỳng.
Hỡnh 3.6: Tớnh cht c bn ca cỏc tp mc v tp nh danh.
82
Cỏc lớnh cht ca him eớia cp tp mc - lp nh danh:
Cho f : P(ớ)
N l ỏnh x 1-1 t cỏc tp mc n tp s t nhiờn N. Vi hai
tp mc bõỡ k X( v x 2, chdng a núi X) < x 2 nu v ch nu f(X,) <
. f xỏc
nh ml Irt t trờn cỏc lp mc .
Vớ d : nu f xỏc nh Irl t t in thỡ tp mc AC < AD. Mt vớ d khỏc,
nu f sp xp cỏc tp mc theo trt l tng dn ca h tr th khi ú AD < AC
nu supp(AD) < supp(AC).
Gi s rng la dang xộl nhỏnh X X t(X), v ta mun kt hp nú vi nhỏnh
cựng mc x 2 X t(X õy X| < x 2. Tớnh toỏn chớnh ca thut toỏn CHARM da
trờn cỏc tớnh cht sau:
( 1) Nu t(Xj) = t(X.j> thỡ t(X ,uX 2) = t(X,) n t(X2) = t(X,) = t(X2). Do vy ta
cú th thay mi xut hin cựa X| vi X (w X 2 v loi b x 2 lrong cỏc tp xột sau ny,
vỡ loỏn l úng ca nú l xỏc nh ớ toỏn t úng ca XUX2
(2) N ut(X 1 c t ( X 2)th ỡt(X ,u X 2) = 5(X!) n t ( X 2) = l(X1 * t(X2).
)
)
Ta cú ih thay mi xui hin ca X| vi X[UX2 vỡ nu X[ xut hin bt k lỏc
v no thỡ x 2 cng luụn xut hin. Nhng vỡ t(X|) * ớ(X2} ta khụng th loi b x 2
,
lỡú sinh ra tp úng khỏc.
(3) Nu t(X|) => i{X2) lUỡ ớ(X ,uX 2) = t(X,) n t(X2) = t(X2) * KX,).
Trong trng hp ny, ta thay mi xut hin cựa x 2 vi X ,u X 2 vỡ khi X,
xut hin thỡ X( cng luụn xut hớn. Tuy nhiờn Xt sinh ra tp úng khỏc nờn nú
phi c gi li.
(4) Nu i(Xj) * t(X2) thỡ I(X,UX2) = t(Xj) n l(X2) * t(X2) * t(X,). Trong
trng hp ny khụng ioi lp no, c hai X( v x 2 dn n cỏc tp úng kbỏc nhau.
Hỡnh 3.6 mụ t 4 tớnh cht trờn. Ta thy rng ch cú cỏc tp nh danh tidset
l c duy trỡ sau khi ta kt hp hai cp tp mc - tp nh danh. Vớ d: nu hai lp
nh danh bng nhau, mt trong hai tp b ta { tớnh cht I ). Nu mt tp nh danh
l tp con ca tp nh danh khỏc thỡ tp nh danh kt qu bng vi tp nh anh
nh hn t tp cha v ta loi b tp cha ú ( tớnh cht 2 v 3). Cui cựng, nu cỏc tp
nh danh khụng bng nhau thi hai tp ny v tp giao ca chỳng cỏc tp úng.
83
Vớ tl: trc kh Iiỡnh by tbul toỏn, ta xem 4 lớnh cht c bn ca cp lp
mc - lp nh danh ny dc ỏp dng trong thut toỏn CHARM khai phỏ lp
mc ph bin úng.
Ban u ta cú 5 nhỏnh tng ng vi 5 mc v tp nh danh tớdset ca
chỳng{ õy minsupp=3), sinh ra cỏc con ca mc A ( hoc cp A X 1345)
chỳng ta cn kt hp nú vi tt c cỏc nỳt cựng mc sau nú ( bờn phi nú), Khi kt
bp hai cp x Ă X t(Xj) v x 2 X t(X2), cp nhn c l (X)UX2) X (t(X |)nt(X 2)). Núi
cỏch khỏc chỳng ta cn ly giao cỏc tp nh danh ỡidset tng ng mi khi la kt
hp bai hay nhiu lp mc.
Khi ta kt hp A vi c , ta thy tớnh cht 2 tho món, tc : 1(A) =1345 ầ
123456 = 1(C). Do vy ta cú th b A v thay nú bi AC, Kl hp A vi D sinh ra
lp khng ph bin ACD, nú b ta di. Kt hp vi T sinh ra cp ACT X 135 , lớnh
cht 4 tho món õy, o vy khụng tp no b ta. Khi chỳng ta kct hp A vi w
chỳng ta thy i(A) ầ 1(W). Theo tớnh cht 2, ta thay tt c s xut hin m khụng b
2
ta ca A vi W. Do vy , AC thnh ACW v ACT thnh ACTW. Kt thỳc nhỏnh
vi nỳt gc l A.
Vi nhỏnh c , khi kt hp c vi D , tớnh cht 3 tho món, lc l t(C)
t( ).
Diu ny cú ngha l khi D xut liin lili c un xut hin. Do ú D cú th loi b ,
lon b ihỏtih D b ta v nút con CD ihay th D. Hon ton tng t di vi T v w
. C hai nhỏnh u b ta v thay th bi CT v c w ( l con ca C ) , Tip tc cỏch dú
84
.xung mc situ tip theo, ta xột nt CD . Kt hp nú vúi CT sinh ra tp mc khũng
ph biờn CDT, lp ny b ta. Kl hp vi c w sinh ra CDW v VI tớnh chl 4 iho
Itỡón, khụng lp no b loi b. Tg t kt hp cựa CT v c w sinh ra CTW.
Nliỏilli ó s lý xong.
Cui cựng,
chỳng
ta loi b CTW X ớ 35 vỡ n c cha trong ACTW
X
135 .
Til thy rng ch cn 10 bc xỏc nh c tt c 7 cp mc ph bin dúng.
Thut toỏn CH ARM :
ChARM ỗ X X 7~, HIHUHP):
I. Nodes- 7j X tj) ; A |i(Jj)|
5 Ch ARM-ẩxtend {Nodes, C)
ChARM'PROPERTy (Nodes, NewN):
10. if(|Yj > W>ôHp)then
11.
lfi(JTi) = t[Xj) then //Property 1
12.
Remove X j from Nodes
13.
Replace al! X j with X
C hARM-Extekd (Nodes, C):
14.
else If (A'j) C (Xj) then //Property 2
3. For each Y X i(Xi) in Nodes
,
15.
Replace ail X i with X
4
NewN ô0 and X * J *
5.
else ifi(X i) D t(X j ) then//Property 3
for each X j x t(X j) in Nodes, with /(/) > /(t) 16.
17.
Remove X j from Nodes
6.
X = X U X j andY a t(Xi) n t{X j)
18.
Add X x Y to NewN
7.
CHARM-PaoPERTY(NodessNewN)
19.
else if i(Arj) ^ t(X j) then //Property 4
8.
if NowN ^ 0 then C hARM-Extend {NewN)
20.
Add X x Y to NewN
9.
C C U X //if X is not subsum
ed
>ằtinsvp}
Thut toỏn bt u vi khi lo cỏc mc n ( 1 mc) v tp tisec ca chỳng
trong dũng I . Tớnh toỏn chớnh thc hin trong CHARM-EXTEND v ir vộ tp
C ik
lp mc ph bin ng c . Hm CHARM-PROPERTY kim ira rng buc v h
tr v kim tra xem nt cú tlio mn 4 lớnh cht ó nờu trờn.
ỏnh giỏ th u t toỏn CHARM : [19]
Tớnh ỳng n ca thut toỏn CHARM c th hin trong nh lý sau.
Dinh lý 3: ( lớnh dng dn) Thui toỏn CHARM tỡm ra tt c cỏc tp mc ph bin
úng.
ỏnh giỏ chi phớ thi gian v chi phớ vo ra nh sau:
inh lý 4: (thi gian ) Thi gian thc hiờn thut toỏn CHARM l 0 ( l. C| ), ú c
l tp tt c cỏc tp mc ph bin úngằ 1 l i tp nh danh trung bỡnh.