1. Trang chủ >
  2. Luận Văn - Báo Cáo >
  3. Công nghệ thông tin >

1 TẬP MỤC PHỔ BIẾN ĐÓNG:

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (38.55 MB, 109 trang )


74



mue c u a C ớ'I H S ir A rth u r

M ark

C o n a n D oyle

T w ain

D

T



C ỏc



Jane

A g a th a

C h ristie

A lớste n

A

c

CS DL

Transcation Items

1

A C TW



P. G .

W o c ie h o u se

w



C ỏ c tõp m u e phtớ b iởn v ỏ i m in su p p -5 0 %



S u p p o rt



I te m s e ts



100% (6)



c



2



C DW



3



ACTW



4



A C OW



5



AC DTW



67% (4)



6



C DT



50% <3)



83% <5>



w. cw

A, O, T, AC, AW

CD, CT. ACW

AT, DW, TW, ACT, ATW

CDW, CT W, ACTW



Hinh 3.1 : C SD L bỏn sch minh hoa cho tõp mue pho bien dúng.

Tõp Xc: I goớ l tõp mue v lõp Y e T goi l tõp cỏc dinh danh tid.set . De

thuõn tiờn, ta ki hiờu tõp mue ( A, C, W} l ACW v tõp dinh danh {2,4,5} l 245.

Dỷ hụ tro cua tõp mue X, ki hiờu l supp(X), l sụ' cỏc tỏc vu trong do no xuõt

hitn. Tõp mue X l phụ biờh nờ'u dụ hụ tro cỹanụ supp(X)> minsupp.

Mot luõl kột hop l biộu thực Xj



X 2 , dú XĂv X2 l cỏc tõp mue v X ( r\



X2- 0 - Dụ hụ trg cỹu luAt l supp( XĂ u X2) v dụ tin cõy l p=supp( X f U X2)/

sujpp{ X , ) . Mụt luõt l tin cõy nờ'u p> minconf.

Kột nụù Galois:

Gia su 8 c I x T l quan hờ nhi phõn- CSDL cho khai ph luõt kột hop. X c l

v Y ỗT. Cỏc ỏnh xa:

t : I T , t
>

i : T - > l , t ( Y ) = { x e l/V y e Y , xụyj

dinh nghùa mụt kột nụ'i Galois giffa cỏc tõp cú thự tuf P(I) v P(T) (l tõp cỏc tõp con

cỹa I v T). Hùnh 3.2.a minh hoa hai ỏnh xa.



75



,n

u



C ỏ c t ỏ c v



Cỏc mc



X

)







W



Y



n w



1



i



b) Toỏn



Hỡnh 3.2: a)Kớ ni Gaois



t dúng Round-trip



t(X) l tp tt c cỏc tỏc v ( tidset) cha tp mc X, tng t i(Y) l tp mc c

cha trong tt c cỏc tỏc v Irong Y. Vớ d: ớ(ACW)=tl345 v (245)=CDW.

t(X)= n x ô X t(x) v i(Y)= n y e Y i( y ) , v ớ d; t(ACW) = t(A)

123456 n 12345 = 1345. Cng vy, i(245) - i(2) n i(4)



r\ t(C) r\ t(W) as 1345



n i(5) = CDW n



ACDW



o ACDTW = CDW,



Kt ni Galois tho món cỏc ớnh ch sau:

(1) X, C



x 2 => t(X,)



3 t(X2). Vớ d: ACW c ACTW , ta cú t(ACW) = 1345



=2135 =t(ACTW).

(2) Y,c Y2



i(Y l) 2 ỡ (Y2). V ớ d: 245 s 2456 , ta cú i(245>= C D W a CD=



i(2456)

(3) X C i(t(X)) v Y c t(i(Y)). Vớ d: AC C i(t(AC)) = i{1345) = ACW.

Xỏc nh Cj,(X)= i o t(X) a i(t(X ằ v c= t o i(Y) = t(ỡ(Y)) ( tc l cỏc ỏnh x

hp) thỡ; cu : P(I) -> P(I) v c ,i: P(T)



P(T) c hai u i cỏc toỏn t úng trờn cỏc



tp mc v cỏc tp nh danh. Ngi ta gi i o t v t o i l roun-trip. Hỡnh 3.2.b

minh ho round-trip ny bt u vi tp mc X.



Toỏn t úng v tp úng:

Cho tp hp



s, hm c: P(S) P(S) gi l toỏn t úng trờn s nu vi mi X,





Y C s , c tho món cỏc tớnh cht sau:

[. M



r n g (e x te n s io n ): X C



c{X).



76



2. i iu ( monoợonicity): nu X ầ Y lili c(X) c c(Y).

3. Khụng lóng (Icmpotency) : c(c(X)) = C(X).

Tp con X ca s gi l úng nu c(X) = X.

Hỡnh 3.3 v 3.4 minh ho cỏc tp mc ph bin v lp mc ph bin dúng.

C tõỡ c 19 tp mc ph bin vi minsupp = 50% c t chc thnhdncựng



vi



tp nh danh idset ca nú v ? lp úớtg nhõn c bng cỏch ly hpca cỏc lp

mc ph bin cú cựng (p d till (lanh. Trong cỏc lp dúng cú 2 tp mc ph bin cc

di l ACTW v CDW. Vớ d ch ra rng: nu <7 l tp mc ph bin, & ! tp

úng, v M l lp ph bin cc i thỡ a cú: M Q ờ Ê <7

tỡm tp X cú lp ph bin khng ta tỡm tp úng nh nht cha X. Nu

khụng ln ti tp ny thỡ X khụng phi tp ph bin. Vớ d: kim tra ATW cú ph

bn khng chỳng ta tim c ACTW l tp úng nh nht cha nú, do ú ATW l

tp ph bin v cú cựng tn xul nh ACTW. Mt khỏc, DT l khụng ph bin vỡ

khụng cú tp ph bin ng no cha nú.



Hỡnh 3.3 : Cỏc tp mc ph bin



77



Cho bt k tp mc úng X no u tn ti mt tp nh danh úng Y m

Y=t(X) v X=i(Y) ( ngc li cho b't k tp dinh anh úng no cng ln li mt



78



lp mc dúng tng ng), Mi cp tp mc úng v tp nh (lanh iún dc gi l

mt khỏi nim concept).

Khỏi nim x ( X Y| l khỏi nim con ca x 2 X Y2 c vit l

X, X Y, < x 2 X Y2 nu X, ầ x 2 ( tng ng nu Y 2c Y ).

Tp cỏc tp mc ph bin úng nh hn rt nhiu so vi tp cỏc tp irtc ph

bin. Phộp hi v phộp luyn trờn cỏc khỏi nim c xỏc nh nh sau:

Phộp tuyn:
Phộp hi : (X, X Y, ) A ( x 2 X Y2 ) = ( X, n x ) X c,Ă( Y, u Y2)

Vớ d: (ACDW X 45 ) V ( CDT X 56 ) = ci( ( ACDW
ACDTW X 5.

(ACDW X 45 ) A ( CDT X 56 ) = ( ACDW n C U T ) X cti( 45 o 56)= CD X

c,j(456)= CT) X 2456.

Ta xỏc nh h ỡr ca tp úng X hay khỏi nim XxY l s cỏc phn t

ca tp dnh anh úng Y=t(X), tc l: supp(X)= I Y I t(X) I . Tp mc úng hay

khỏi nim dc gỡ l ph bin nu li tr ca nú ớt nht bng minsupp. HèI113.4

ó ch ra tt c cỏc khỏi nim ph bin vi minsupp = 50% ( tc l s cỏc phn t

ca tp nh danh ớt nht l 3}



f)nh lý 1 : h tr cựa tp mc X bt k bng h tr ca toỏn t úng ca nú,



lc : suppKX)- supp(cu(X)),

Chng minh: h tr ca tp mc X l s cỏc rỏc v ú nú xut hin, tc l s



phn l



c a Lp



nh danh t(X), supp(X)



=



t ( X) i . VI supp(ch(X))= I t(cĂ,(X)) I,



chng minh nh lý ta phi ch ra l t(X)= t(eĂ,(X)).

Vi C l toỏn l úng, nú tho món tớnh m rng t(X) ầ c(j(t(X)) =

j,

Z

i(i(t(X)))=t(cil(X)), Do ú t(X) C t(ci((X)) , Mt khc C cng l toỏn l úng, X ầ

j,

csl(X) suy ra t(X) 2 t(cu(X)) do tớnh cht ca kt ni Galois, Suy ra 1{X) = l{c(i{X})



nh lý ny cho thy tl c cỏc tp mc ph bin c xỏc nh duy nht bi

cỏc tp mc úng ( hoc cỏc khỏi nim ph bin). Hn na, tp cỏc tp mc ph



79



bin dúng nhũ hn lp cỏc tp Ănc ph bin, v c bit nhũ hu (rong trng

hp cỏc d liu dy ( dense) . Mỡnh ho cho iu ny cú th thy trong V d trn:

I

ch cú 7 lp mc ph bin úng trong khi ú cú 19 tp mc ph bin. Vớ ny cho

Ihy rừ ớch li ca khai phỏ cỏc lut kt hp ng,

4.2 SINH LUT:



Ta nhc li, lut kt hp l biu Ihc cú dng X) -> p x 2 , ú: Xj , x 2 ỗ l .

h tr ca nú bng |t(XĂvj x 2)| v tin cy cựa nú l p= t(XU x 2}| / |t(X |)[.

Chỳng ta quan tỏm ằ cỏc lut cú h Ir ln hn hoc bng h tr cc tiu

minsupp v tin cy ln hu hoc bng tin cy cc tiu minconf.

Sụ' cỏc lut kt hp tỡm c cú th rt ln , Nu mt tp mc ph bin cú k

mc thỡ nú cú th sinh ra ti 2k-2 lut ( hm m cựa chiu di ca tp mc ph bin),

do dú cỏc lp mc ph bin cng ln thớ sụ' ut cú th sinh ra cng ln.

Tuy nhiờn ngi ta ó ch ra rng khụng cn thit khai phỏ cỏc iut t tt c

cỏc tp mc ph bin bi vỡ cú rt nhiu lut trong ú l tha, ch cn khai phỏ cỏc

lut sinh ra ỡ cỏc tp mc ph bin úng.

nh lý 2: Lut X,



x 2 tng ng vi lut cit(Xj) ->* cit(X2) , ú paq,



Chng minh: Theo nh ý 1 trờn h tr ca p mc X bng h tr cựa tp



mc dúng ca nú ci((X ) . Vy ta cú

f e ( A 'i) u M ,* a ) ) | __ \ K d i(X )n tM X - 2 ))\ _ |
"

m m

n te i

' ..M51



_



Nh vy cú nhiu tp mc ph bin ỏnh x ti cung mt tp mc ph bin

úng. Gi s S| cú n tp mc v tp cỏc toỏn t úng ca nú i C|, s 2 cú m tp mc

v tp toỏn t úng l c 2, ngi ta ch ra rng cú n, m-1 lut gia hai tp mc khụng

dúng sinh trc tip t S| ti s, l khng cn thit. Tt c chỳng tng ng vi lut



c,-> pc 2. Mn na, cú m . n -1 lut sinh trc tip t s 2 ti S| l cng khụng cn Ihit

v chỳng tng ng vi lut C2-ằ 1 C| . Vớ d: xem hỡnh 3.4 trờn, ta thy cỏc tp

1

mc D v C ỏnh x li tp mc dúng CD, cỏc tp mc w v c w ỏnh x túi lp

úng cw . Cỏc lut D~ằ 1/4 w , D -ằ^4 c w , CD -ằ,V w tng ng vi lut gia

4

hai lp úng CD->va cw . Mt khỏc, xộr cỏc lut w v /5 D , W-ằ-V CD , C W -*V I)

5

S



80



lng dng vi lut cw~ằvs CD. Ta nờn ch a n ngi dựng cỏc lut ulng quỏt

nlỡl ( cỏc lut khỏc l dc bit iin, chỳng cha Ihờm 1 hoc nhiu hn cỏc mc

phn tin hoc kt lun), lc l cỏc lut:D



w v W D. Nh vy s dng

>ớ/5



cỏc tp ph bin úng ta sinh ra 2 lut thay cho 8 lul nh vớ d trờn. Th nghim

trờn CSD. v cỏc ioớ nm, vi minsupp=lO%, ngi ta tỡm c 574513 tp mc

ph bin, trong ú ch cú 4897 lp mc ph bin úng, gp hn 100 ln.

4.3 THUT TON CHARM:



Da trụn c s lý thuyt v tp úng nhiu tỏc gi ó phỏt trin cỏc thut ioỏn

tỡm tp mc ph bin úng v lut kt hp khỏ hiu qu. ó cú nhiu thut toỏn

c gii thiu. Trong phn ny số trỡnh by thut toỏn CHARM, mt thul toỏn

mi v hiu qu tỡm tp mc ph bin úng.

Thut ton CHARM [19] (hc hin



duyt



trn c khụng gian cỏc tp mc v



khụng gian cỏc tp nh danh ( tidset). Thut toỏn trỏnh c vic tớnh toỏn tỡm

(t c cỏc tp con cú th ca tp mc dúng khi tỡm cỏc tp dúng, hiu qu hn lin

chin lc



t ỡ m t i lờ n ( b o t t o m - u p ) .



Tớnh cht



n y l q u a n



trng



t r o n g k ia i p h ỏ



cỏc CSDL dy vi cỏc lp mc ph bin di. Duyl qua c khng gian lp mc v

khng



g ia n



cỏc



l p d in h



(lanh cho



p h ộ p th u t to ỏ n



CHARM s



phng



dng m t



phỏp lỡm kim mi, b qua ằhiu mc lỡm tp ph bin úng thay cho phi lớnh

nliiu lp con khng úng. Hn na, thut (oỏn CHARM s dng hai chin lc lia:

t a c ỏ c n g c n u t p c o n c a n ú k h ụ n g p h b i n n g



ihi



ta c ỏ c



nhỏnh



d a tr ụ n



lớnh cht khụng úng ( noil closure property), bt k tp mc khụng úng no du b

l ia .



Cui



c ự n g , th u t



toỏn CHARM



k h ụ n g s d n g c u MC l i u



cõy bm



( hash



Iretớ), phộp toỏn c s c s dng l hp hai tp mc v giao hai tp nh danh.

Hỡnh 3,5 l dn cỏc tp con dy cho CSDL hỡnh3.L í tng ca thut

toỏn CHARM l duvt trờn cỏc nỳt cựa dn d kim tra xem nỳt con cú phỏi l tp

ph bin khụng, Tt c cỏc tp khụng ph bin cng nh cỏc nhỏnh khng phi tp

úng u b ta. Mi nỳt con ca mt nỳt c kl hp vúi cỏc nỳt con khỏc cựng

mc. Vớ d trong hỡnh 3,5 , A kt hp vi c, D , T v w to ra cỏc con AC, AD,

AT v AW. Thut toỏn CHARM thc hin tỡm kim theo chiu sõu trụn cỏc dn

con.



81



Gi s cho bt k tp mc X no ta u tỡm c cp tidsei t(X) ( lp nh

anh cỏc tỏc v cha X) v ngc li cho bt k tp tỡdset Y no ta u tỡm c tp

mc i(Y) ca n. Thut toỏn CHARM tớnh tt c cỏc khỏi nim ph bin t CSDL

vo. Nhc li, mt khỏi nim l cp X X Y trong ú X=i(Y) l tp mc úng v

Y=t{X) l tp nh danh úng. Chỳng ta cú th bt u duyớ cỏc khỏi nim trong

khụng gian cỏc tp mc hoc khng gian tp nh danh, Tuy nhiờn, s cỏc mc nh

hn nhiu s cỏc tỏc v v vỡ ta quan tõm n cỏc tp mc úng, ta bt u tỡm vi

cỏc mc n v cỏc tidset kt hp ca chỳng.



Hỡnh 3.6: Tớnh cht c bn ca cỏc tp mc v tp nh danh.



82



Cỏc lớnh cht ca him eớia cp tp mc - lp nh danh:

Cho f : P(ớ)



N l ỏnh x 1-1 t cỏc tp mc n tp s t nhiờn N. Vi hai



tp mc bõỡ k X( v x 2, chdng a núi X) < x 2 nu v ch nu f(X,) <



. f xỏc



nh ml Irt t trờn cỏc lp mc .

Vớ d : nu f xỏc nh Irl t t in thỡ tp mc AC < AD. Mt vớ d khỏc,

nu f sp xp cỏc tp mc theo trt l tng dn ca h tr th khi ú AD < AC

nu supp(AD) < supp(AC).

Gi s rng la dang xộl nhỏnh X X t(X), v ta mun kt hp nú vi nhỏnh

cựng mc x 2 X t(X õy X| < x 2. Tớnh toỏn chớnh ca thut toỏn CHARM da

trờn cỏc tớnh cht sau:

( 1) Nu t(Xj) = t(X.j> thỡ t(X ,uX 2) = t(X,) n t(X2) = t(X,) = t(X2). Do vy ta

cú th thay mi xut hin cựa X| vi X (w X 2 v loi b x 2 lrong cỏc tp xột sau ny,

vỡ loỏn l úng ca nú l xỏc nh ớ toỏn t úng ca XUX2

(2) N ut(X 1 c t ( X 2)th ỡt(X ,u X 2) = 5(X!) n t ( X 2) = l(X1 * t(X2).

)

)

Ta cú ih thay mi xui hin ca X| vi X[UX2 vỡ nu X[ xut hin bt k lỏc

v no thỡ x 2 cng luụn xut hin. Nhng vỡ t(X|) * ớ(X2} ta khụng th loi b x 2

,

lỡú sinh ra tp úng khỏc.

(3) Nu t(X|) => i{X2) lUỡ ớ(X ,uX 2) = t(X,) n t(X2) = t(X2) * KX,).

Trong trng hp ny, ta thay mi xut hin cựa x 2 vi X ,u X 2 vỡ khi X,

xut hin thỡ X( cng luụn xut hớn. Tuy nhiờn Xt sinh ra tp úng khỏc nờn nú

phi c gi li.

(4) Nu i(Xj) * t(X2) thỡ I(X,UX2) = t(Xj) n l(X2) * t(X2) * t(X,). Trong

trng hp ny khụng ioi lp no, c hai X( v x 2 dn n cỏc tp úng kbỏc nhau.

Hỡnh 3.6 mụ t 4 tớnh cht trờn. Ta thy rng ch cú cỏc tp nh danh tidset

l c duy trỡ sau khi ta kt hp hai cp tp mc - tp nh danh. Vớ d: nu hai lp

nh danh bng nhau, mt trong hai tp b ta { tớnh cht I ). Nu mt tp nh danh

l tp con ca tp nh danh khỏc thỡ tp nh danh kt qu bng vi tp nh anh

nh hn t tp cha v ta loi b tp cha ú ( tớnh cht 2 v 3). Cui cựng, nu cỏc tp

nh danh khụng bng nhau thi hai tp ny v tp giao ca chỳng cỏc tp úng.



83



Vớ tl: trc kh Iiỡnh by tbul toỏn, ta xem 4 lớnh cht c bn ca cp lp

mc - lp nh danh ny dc ỏp dng trong thut toỏn CHARM khai phỏ lp

mc ph bin úng.



Ban u ta cú 5 nhỏnh tng ng vi 5 mc v tp nh danh tớdset ca

chỳng{ õy minsupp=3), sinh ra cỏc con ca mc A ( hoc cp A X 1345)

chỳng ta cn kt hp nú vi tt c cỏc nỳt cựng mc sau nú ( bờn phi nú), Khi kt

bp hai cp x Ă X t(Xj) v x 2 X t(X2), cp nhn c l (X)UX2) X (t(X |)nt(X 2)). Núi

cỏch khỏc chỳng ta cn ly giao cỏc tp nh danh ỡidset tng ng mi khi la kt

hp bai hay nhiu lp mc.

Khi ta kt hp A vi c , ta thy tớnh cht 2 tho món, tc : 1(A) =1345 ầ

123456 = 1(C). Do vy ta cú th b A v thay nú bi AC, Kl hp A vi D sinh ra

lp khng ph bin ACD, nú b ta di. Kt hp vi T sinh ra cp ACT X 135 , lớnh

cht 4 tho món õy, o vy khụng tp no b ta. Khi chỳng ta kct hp A vi w

chỳng ta thy i(A) ầ 1(W). Theo tớnh cht 2, ta thay tt c s xut hin m khụng b

2

ta ca A vi W. Do vy , AC thnh ACW v ACT thnh ACTW. Kt thỳc nhỏnh

vi nỳt gc l A.

Vi nhỏnh c , khi kt hp c vi D , tớnh cht 3 tho món, lc l t(C)



t( ).



Diu ny cú ngha l khi D xut liin lili c un xut hin. Do ú D cú th loi b ,

lon b ihỏtih D b ta v nút con CD ihay th D. Hon ton tng t di vi T v w

. C hai nhỏnh u b ta v thay th bi CT v c w ( l con ca C ) , Tip tc cỏch dú



84



.xung mc situ tip theo, ta xột nt CD . Kt hp nú vúi CT sinh ra tp mc khũng

ph biờn CDT, lp ny b ta. Kl hp vi c w sinh ra CDW v VI tớnh chl 4 iho

Itỡón, khụng lp no b loi b. Tg t kt hp cựa CT v c w sinh ra CTW.

Nliỏilli ó s lý xong.

Cui cựng,



chỳng



ta loi b CTW X ớ 35 vỡ n c cha trong ACTW



X



135 .



Til thy rng ch cn 10 bc xỏc nh c tt c 7 cp mc ph bin dúng.

Thut toỏn CH ARM :

ChARM ỗ X X 7~, HIHUHP):

I. Nodes- 7j X tj) ; A |i(Jj)|

5 Ch ARM-ẩxtend {Nodes, C)



ChARM'PROPERTy (Nodes, NewN):

10. if(|Yj > W>ôHp)then

11.

lfi(JTi) = t[Xj) then //Property 1

12.

Remove X j from Nodes

13.

Replace al! X j with X

C hARM-Extekd (Nodes, C):

14.

else If (A'j) C (Xj) then //Property 2

3. For each Y X i(Xi) in Nodes

,

15.

Replace ail X i with X

4

NewN ô0 and X * J *

5.

else ifi(X i) D t(X j ) then//Property 3

for each X j x t(X j) in Nodes, with /(/) > /(t) 16.

17.

Remove X j from Nodes

6.

X = X U X j andY a t(Xi) n t{X j)

18.

Add X x Y to NewN

7.

CHARM-PaoPERTY(NodessNewN)

19.

else if i(Arj) ^ t(X j) then //Property 4

8.

if NowN ^ 0 then C hARM-Extend {NewN)

20.

Add X x Y to NewN

9.

C C U X //if X is not subsum

ed



>ằtinsvp}



Thut toỏn bt u vi khi lo cỏc mc n ( 1 mc) v tp tisec ca chỳng

trong dũng I . Tớnh toỏn chớnh thc hin trong CHARM-EXTEND v ir vộ tp



C ik



lp mc ph bin ng c . Hm CHARM-PROPERTY kim ira rng buc v h

tr v kim tra xem nt cú tlio mn 4 lớnh cht ó nờu trờn.



ỏnh giỏ th u t toỏn CHARM : [19]

Tớnh ỳng n ca thut toỏn CHARM c th hin trong nh lý sau.

Dinh lý 3: ( lớnh dng dn) Thui toỏn CHARM tỡm ra tt c cỏc tp mc ph bin



úng.

ỏnh giỏ chi phớ thi gian v chi phớ vo ra nh sau:

inh lý 4: (thi gian ) Thi gian thc hiờn thut toỏn CHARM l 0 ( l. C| ), ú c



l tp tt c cỏc tp mc ph bin úngằ 1 l i tp nh danh trung bỡnh.



Xem Thêm
Tải bản đầy đủ (.pdf) (109 trang)

×